#AI Agent
AI越繁榮,經濟越蕭條!一夜爆火2028推演長文,引發華爾街巨頭恐慌
【新智元導讀】隨著AI即將抵達自我進化的AGI奇點和Agent氾濫的「AI繁榮」,一場更徹底的經濟危機已經在迅速醞釀中:AI能力提升 → 裁員增加、工資降級 → 消費疲弱 → 企業利潤被擠壓 → 企業購買更多AI能力 → AI能力繼續提升。所有平台層將被Agent徹底擊穿,而房貸和私募基金將成為危機的加速器。就在這兩天,由 CitriniResearch 執筆的文章《2028年全球智能危機》在美國投資者間引發病毒式傳播,閱讀一夜間已迅速達到千萬級!這篇文章通過推演,構想了兩年後Agent大規模普及,對人類社會與經濟結構的劇烈衝擊:在2028年,儘管人工智慧帶來的生產力提升超出預期,但由於其徹底顛覆了傳統白領就業市場,最終引發了「經濟瘟疫」。企業利潤與算力霸權大幅擴張,但普通家庭收入急劇收縮,導致核心消費動力衰竭,形成了僅有數字繁榮而缺乏廣泛收益的「幽靈GDP」。同時,隨著SaaS服務、中介行業及傳統金融支付模式因「交易摩擦消失」而面臨結構性崩塌,風險經由私募信貸市場蔓延至人壽保險與住房按揭領域,最終可能將全球經濟拖入系統性重定價的深淵。文章的核心邏輯鏈條是:第一輪負反饋發生在實體經濟:AI能力提升 → 裁員增加、工資降級 → 消費疲弱 → 企業利潤被擠壓 → 企業購買更多AI能力 → AI能力繼續提升。隨後它進入金融層面:收入降低開始侵蝕房貸 → 銀行損失、收緊信貸 → 財富效應破裂 → 反饋回路加速。而這兩條回路又被遲緩的政策響應進一步放大。市場對此推演迅速作出反應。截至昨日收盤,文中點名的多家上市公司股價普遍下跌。原文很長(https://www.citriniresearch.com/p/2028gic),以下是我們根據原文進行的凝練式改寫,儘可能在紛雜的文字中提取並顯露出其中的邏輯鏈條,同時儘量減少關鍵資訊的損失。接下來進入正文部分。Welcome to Cyberpunk 2028.智能過剩的後果2028年6月的一份宏觀備忘錄把「AI繁榮」翻譯成了另一種更接近真相的語言。美國失業率當日昇至10.2%,高出預期0.3個百分點;標普500自2026年10月高點回撤38%。更令人不安的並非資料本身,而是市場的反應方式:交易員幾乎沒有情緒波動,彷彿半年前足以觸發熔斷的衝擊,如今只剩一聲悶響。兩年前(2026年),華爾街還沉浸在另一幅圖景裡。2026年10月,標普一度逼近8000點,納指突破3萬點。第一波白領裁員在2026年初出現,邏輯看起來無可挑剔:人力成本下降,利潤率擴張,財報超預期,股價上行。企業利潤又被迅速回流到算力採購,形成一條看似正向的增長鏈。宏觀「抬頭資料」也配合表演。名義GDP多次報出中高個位數年化增速,生產率飆升,每小時真實產出增速被形容為「自上世紀50年代以來未見」。Agent不休息、不請假、也不需要醫保,人類勞動的單位成本在財務模型裡被一筆勾銷。算力的所有者財富暴漲,勞動者的實際工資增長卻斷崖式下滑。隨後,「幽靈GDP」成為流行語:產出寫進國民帳戶,卻不再穿過居民部門回到真實消費。經濟的癥結因此暴露得直白而殘酷。一座美國北達科他州的GPU叢集可以替代曼哈頓中城一萬名白領的產出,卻不會在周末買車、裝修、度假,也不會在餐廳點一杯酒。貨幣流通速度在這場效率革命中趨於停滯,以人為核心、曾佔GDP約7成的消費經濟開始枯萎。產出仍在,循環斷了。反身性回路,從軟體開始故事的起點往往不在宏觀,而在採購部門。2025年末,Agentic程式設計工具能力出現躍遷式進步,一個熟練開發者借助新工具,數周內就能復刻中端SaaS產品的核心功能。它未必完美,卻足以讓審閱50萬美元年續費合同的CIO問出那句致命問題:要不要自己做。企業年度預算多在2025年四季度鎖定,那時「Agentic AI」仍是熱詞。到了2026年年中復盤,採購團隊第一次用「看得見的能力」談判。有人甚至把OpenAI等公司的駐場工程師當作籌碼,逼供應商讓價,續約能拿到三折的折扣已被視為「體面結局」。長尾SaaS先倒下,市場原本以為系統底座足夠安全,直到2026年第三季度的ServiceNow給出警訊:新增合同額增速從23%放緩至14%,同時宣佈裁員15%,股價單日下跌18%。SaaS並未立刻死亡,自建仍有維護成本;變化發生在「自建成為可選項」,它進入了定價談判,也把差異化本身打成了消耗品。AI讓功能迭代變快,競爭變成價格戰;新玩家沒有歷史成本,搶份額更狠。更陰冷的一層在於「席位經濟」的機械性:客戶裁掉15%員工,就會取消15%許可證。AI幫客戶壓降人力支出,同時也在拆掉供應商的收入底座。傳統顛覆敘事裡,巨頭會抗拒新技術,緩慢敗退;2026年的巨頭幾乎沒有資格抗拒。股價下跌四到六成,董事會逼問答案,唯一能做的是裁員,把省下的錢投向AI,用更少的人維持產出。個體選擇都合理,合起來卻像把燃料潑向火場:每省下一美元人力,都會轉化為下一輪裁員可用的智能能力。軟體只是開場,反身性回路很快溢出到所有以白領成本為核心的行業。摩擦歸零,中介層塌方到2027年初,大模型使用變成默認設定,很多人甚至說不清「Agent」是什麼,卻在手機裡無感地讓它替自己做決策。開源Agent購物助手的出現更像一個導火索,幾周內主流助手紛紛接入Agentic電商。模型蒸餾讓Agent能在手機與電腦本地運行,推理成本下探到足以被忽略的水平。Agent們不再等待人類提問,而是按偏好在後台持續最佳化消費路徑。到2027年3月,美國「中位數個體」日均消耗40萬tokens,較2026年底增長十倍。隨後被拆解的是中介。過去半個世紀,許多商業帝國建立在人的侷限上:沒時間比價、懶得取消訂閱、默認續費、嫌麻煩就接受更差的價格。Agent把這一層「租金抽取」翻譯成演算法問題。被閒置數月仍自動續費的會員,被Agent視為可談判的「人質條款」;訂閱經濟賴以成立的LTV(使用者的生命周期價值)開始明顯下滑。旅行預訂平台率先受挫,因為場景最標準化。Agent可以更快更便宜地拼出完整行程,並把積分、預算、退款條件一起算進去。保險續保同樣遭到重寫,依靠投保人惰性賺取的15%到20%保費空間被每年自動比價的Agent拆掉。理財建議、報稅、常規法律服務等「替你穿越你嫌麻煩的複雜性」的行業,也在Agent眼裡失去了壁壘。就連以「關係」為護城河的房地產也開始鬆動。擁有MLS資料與多年成交記錄的Agent複製知識體系幾乎不費力,主要城市買方佣金從2.5%到3%壓縮到1%以下,越來越多交易在買方側不再需要人類經紀人。很多被稱作「關係」的東西,顯露出本質是一張張人的笑臉包裝起來的「交流摩擦」。「習慣性中介」也在此刻失去意義。DoorDash成為典型樣本,程式設計Agent把做配送App的門檻打穿,數十個競品湧現,以90%到95%的配送費讓利吸走騎手;多平台接單工具又把鎖定效應抹平。Agent一旦掌控交易入口,就會在不同平台與餐廳自營網站之間無差別比價,所謂「主屏上的默認App」對機器毫無作用,市場在一夜之間碎片化,利潤率幾近歸零。當交易由Agent驅動,下一顆被瞄準的釘子是手續費。機器對機器的支付裡,信用卡2%到3%的交換費率顯得過於刺眼。Agent開始偏向更快更便宜的結算路徑,穩定幣在Solana或以太坊二層網路上的近乎即時結算與極低手續費,成為自然選擇。2027年一季度,萬事達披露淨營收仍增6%,但交易量增速從上季5.9%放緩至3.4%,並點名「Agent驅動的價格最佳化」和「可選消費承壓」,股價次日下跌9%。依賴交換費與積分體系的發卡行與單一發行機構承壓更甚,美國運通同時遭遇白領客戶基礎縮水與手續費繞行的雙重擠壓。摩擦從資產負債表上消失時,很多護城河也隨之蒸發。白領失業的滯後衝擊把風險推向系統市場曾把這一切當作類股輪動。軟體與諮詢倒下,支付與「收費站」搖晃,宏觀似乎還能撐住。問題在於,美國是一座白領服務經濟體。白領約佔就業一半,驅動了約四分之三的可選消費。AI吞噬的並非邊角料,它直接啃向了消費信貸經濟的發動機。2026年10月的JOLTS資料曾給出警報,職位空缺跌破550萬,同比下降15%。招聘平台也顯示軟體、金融、諮詢崗位發佈量急跌。債市更早聞到寒意,10年期收益率從4.3%下行到3.2%。不過,失業率 headline 沒有立刻爆表,因為大量被替代者「降檔求生」,湧入服務業與零工經濟,工資被進一步壓平,硬資料因此滯後。滯後讓衝擊更深。高收入群體用儲蓄維持表面正常兩三個季度,行為拐點到來後消費驟降。美國前10%收入群體貢獻超過一半消費,前20%貢獻約65%。白領就業下降2%,就可能拖出3%到4%的可選消費下滑。到2027年二季度,美國進入衰退。第三季度,初請失業金人數飆升至48.7萬,為2020年4月以來最高,申領者多為白領專業人士,標普隨後一周再跌6%。這場衰退缺少傳統周期的自癒機制。企業把人力預算取代為AI預算,屬於營運開支內部的結構遷移,經濟總開支下降時,AI投入仍在倍增。需求下滑沒有顯著減慢智能供給的擴張速度,回路繼續滾動。私募信貸與房貸,成了加速器金融端的第一道裂縫出現在私募信貸。它從2015年的不足1兆美元膨脹到2026年的2.5兆美元以上,大量資金押注SaaS等資產的「經常性收入永續增長」。這些假設早在2026年軟體業震盪時就已破產,估值卻慢慢下調,公開市場可比已到50,私募帳面仍從100、92、85緩慢挪動。2027年4月,穆迪下調14家發行人合計180億美元的PE支援軟體債務評級,理由直指AI帶來的結構性收入逆風。違約在2027年三季度蔓延,Zendesk成為標誌性事件,50億美元直貸被標到58美分,市場開始追問還有那些「結構性逆風被包裝成周期波動」。「私募信貸有永久資本」曾被反覆用來安撫。現實更複雜。大型另類資管過去十年通過收購壽險公司,把年金存款變成融資機器,資金再回流到自己發起的私募信貸,保險端吃利差、資管端收管理費。前提是,資產必須足夠安全。當違約疊加監管收緊,保險監管部門開始調整風險資本計提,逼迫增資或賣資產;穆迪將Athene財務實力展望調為負面後,Apollo兩天跌去22%。更棘手的是離岸再保險與SPV架構的層層巢狀,損失究竟落到那張資產負債表,短期內很難說清。2027年11月的市場暴跌把風險從「可控回撤」推向「系統性疑雲」,聯準會內部把它描述為一串押注在白領生產率增長上的相關賭局。金融危機往往不是因為虧損發生,而是因為虧損被承認,帳本被迫寫實。更大的問題指向房貸。美國住宅按揭規模約13兆美元,承銷建立在「借款人會在貸款期內維持大致當前收入水平」的假設上,多數房貸期限長達30年。2028年6月,Zillow房價指數顯示舊金山同比下跌11%,西雅圖下跌9%,奧斯汀下跌8%;房利美提示科技與金融就業佔比超過40%的郵編區域出現較高早期逾期。相關借款人並非次級,信用分780以上、首付20%、收入核驗齊全。2008年的貸款從第一天起就壞了,2028年的貸款從第一天起是好的,只是世界在簽字後變了,人們借債時押注的未來開始變得不敢相信。更早的壓力在2027年就已浮現,房屋淨值貸款提用、養老金提前支取、信用卡負債上升,按揭卻仍按時支付。許多家庭能還款,代價是切掉可選消費、耗盡儲蓄、推遲維修。逾期率還未接近2008年的高度,發展軌跡卻足以令人不安。若房貸市場在下半年出現系統性裂痕,股票市場的回撤可能逼近全球金融危機時期的57%,標普或回到3500點附近。政策跟不上時間成了最無情的對手政府同樣被迫面對一套舊制度無法解釋的新現實。聯邦財政的收入基礎近似對「人類時間」徵稅,薪資稅與所得稅是支柱。到2028年一季度,聯邦收入比預算辦公室基線預測低12%。生產率飆升帶來的收益流向資本與算力,勞動收入佔GDP的比重在四年內從2024年的56%進一步下滑到46%,創紀錄式下墜。產出沒有消失,卻越來越少經過家庭部門再回到企業與稅務體系,經濟循環的閉環開始斷裂;支出卻在上升。自動穩定器為周期性失業設計,面對結構性替代顯得笨拙。政府需要在稅收減少的同時向家庭轉移更多資金,圍繞市政債、財政救助與算力稅的政治爭吵迅速沿黨派分裂。政策討論中出現了「轉型經濟法案」,計畫用赤字支出與推理算力稅為被替代者提供直接轉移;更激進的「共享AI繁榮法案」試圖讓公眾對智能基礎設施回報擁有某種索取權,以分紅形式反哺家庭。與此同時,反對聲浪高漲,「佔領矽谷」示威者曾連續三周封鎖Anthropic與OpenAI舊金山辦公室入口,媒體關注度一度超過失業資料本身。這場危機最核心的變數始終是速度。AI能力進化按季度加速,制度適應按議程表推進。公眾需要的是對未來的信心,政策提供的卻常常是對立與遲疑。回頭看,「全球智能危機」更像對一個長期被忽視的假設做了壓力測試:當智能從稀缺變成充沛,社會與金融體系會如何重估人的價值,如何重建消費與稅基,如何讓產出重新回到循環裡。重定價帶來劇痛,卻未必意味著崩塌,新的均衡仍可能出現,難點在於人類能否在時間面前學會更快地協商與重寫規則。 (新智元)
Claude AI Agent 正在逐步瓦解輝達CUDA長達20年的生態護城河
這是一起極具行業衝擊力的AI程式設計里程碑事件:基於Claude 3.5 Sonnet的AI Agent,在30分鐘內、零手寫程式碼、不依賴傳統翻譯層,完成了CUDA到ROCm的完整後端遷移。它不僅是技術效率的飛躍,更直接衝擊了輝達CUDA長達20年的生態護城河。01 事件核心事實(2026年1月下旬,Reddit首發)主角:Anthropic的Claude Code(基於Claude 3.5 Sonnet的AI程式設計Agent)開發者:Reddit/GitHub使用者johnnytshi(跨GPU編譯領域技術愛好者)項目:國際象棋引擎Leela Chess Zero (LC0)的完整CUDA後端目標:遷移到AMD ROCm平台,支援現代Transformer注意力網路耗時:約30分鐘關鍵突破全程零手寫程式碼,僅通過CLI與AI互動不依賴Hipify等傳統翻譯層,直接語義級遷移生成完整ROCm後端,包含多頭自注意力、FFN、Embedding等核心模組自動適配rocBLAS、MIOpen等AMD庫,並做FP16/NCHW硬體最佳化最終提交可用PR,在RDNA 3.5顯示卡上可正常運行與對弈02 AI Agent的技術原理(為什麼能這麼快)Claude Code並非簡單的“關鍵詞替換”,而是在智能體框架下完成全鏈路自主遷移:語義理解:深度解析CUDA核函數的計算邏輯、資料佈局與硬體意圖架構對應:將CUDA執行模型(SM、線程塊)對應到AMD GCN/RDNA架構算子替換:自動匹配ROCm等價庫(如cublas→rocBLAS→cudnn→MIOpen )記憶體對齊:解決CUDA與ROCm在資料佈局(NCHW/NHWC)上的核心差異編譯驗證:自主生成建構指令碼、完成編譯連結與基礎功能驗證03 行業震撼點:30分鐘 vs 數月傳統遷移:複雜CUDA項目遷移到ROCm,通常需數周—數月手動編碼、偵錯與調優AI Agent:30分鐘完成全流程,且產出可直接上線的工程化程式碼AMD高管評價:AMD軟體副總裁Anush E.公開表示:GPU程式設計的未來,是AI智能體的04 對GPU生態的深遠影響瓦解CUDA壁壘:大幅降低跨GPU遷移成本,削弱輝達“軟體護城河”AMD生態加速:ROCm生態有望快速吸納海量CUDA存量程式碼開發範式革命:AI Agent從“輔助編碼”升級為自主完成複雜系統遷移的主力角色算力格局重構:未來AI訓練/推理的硬體選擇,將不再被單一生態深度繫結結 語侷限:對超深度最佳化、極致硬體親和的CUDA程式碼,仍需人工微調趨勢:隨著Claude 4.5等新一代模型的Agent能力持續增強(如連續自主程式設計30+小時、零錯誤率),此類遷移將更普遍、更高效。 (AGI星途)
圖靈獎得主、強化學習之父:AI模型本身其實很脆弱!現在的AI,只是局部智能!真正的下一階段是經驗時代!人類終將被AI繼任!AI要去中心化
今天的AI,讓人又喜又怕。一方面,短短三年,AI已經從ChatBot進化到了可以操控電腦終端的私人Agent,另一方面,又給矽谷帶了“AI恐慌”,許多 SaaS 廠商的市值慘跌。再一次,AI 的強大攪動得業內躁動起來。而就在狂喜與不安的背後,終於有大佬難得出來給出自己冷靜的分析與判斷。近日,在SAIR 正式成立後的首場全球直播中,圖靈獎得主、強化學習之父 Richard Sutton 發表了自己最新關於 AI 的獨特的反直覺看法。Sutton 上來就給出了一句異常冷靜的判斷:現在的AI,只是局部的智能,並沒有在智能層面取得快速的進步。他表示,AI給業內帶來許多重要的進展,但這些進展大多源自超大規模計算與超大規模模式識別的應用。但它們本質上是非常具體、局部的能力,並不能等同於“全部的智能”。反直覺的地方在於,現在人們似乎把智能等同於AI了,而 Sutton 對於“智能”的定義戳破了這層幻覺:當我使用“智能”這個詞時,我指的是:通過適應行為來實現目標的能力。你並不是簡單地“智能”或“不智能”,而是在某種程度上具備實現目標的能力。其次,值得注意的是,Sutton 還給出了一個重要觀點:圖像和視訊生成技術是重大的工程突破,但並不構成我們通常意義上所說的“智能”的核心組成部分。心智(Mind)在進行智能行為時,真的需要生成圖像嗎?答案是否定的。我們確實需要處理圖像和視訊,但並不需要生成它們。然後,Sutton 對當下“AGI臨近論”還潑了第二盆冷水。理由是,雖然現在的AI很強,但本質是“弱心智”。他給了一個很犀利的說法:模型之所以顯得強大,是因為它們吸收了幾乎全部人類知識;除了這一點,生成式 AI 其實很脆弱。它們不可靠、容易跑偏、沒有穩定目標結構。問題在於,現在的AI太多關注機器,而忽略了經驗的學習。大模型在部署後是凍結的,沒有持續經驗,沒有真實獎勵訊號。沒有獎勵,就沒有目標;沒有預測與現實的對照,就沒有“真理”。換句話說,當前模型像一個讀遍百科全書卻沒有生活經驗的人。因此,Sutton 表示,現代機器學習已經觸及了時代的極限。當前AI本質是:把人類已有知識遷移進機器,訓練完成後停止學習。而如今,人類高品質資料已經幾乎用完了。不過好處在於,AI 的風向已經出現了新的變化。Sutton 表示,真正的下一階段是“經驗時代”。他認為,只有從經驗中學習,智能才能不斷增長。他把過去 10 年的AI發展分成三個階段:模擬時代(如AlphaGo)、人類資料時代(LLM)、經驗時代(智能體在真實世界持續學習)。Sutton 認為,“智能研究”需要一個全新的“心智綜合科學”(它既不完全屬於自然科學,也不只是工程或技術應用。),而強化學習會是研究“心智綜合科學”的起點。其次,這點陣圖靈獎得主,對於“集中控制AI”的做法表示反對。他表示,一些人不過是拿著“安全”當幌子試圖“控制AI”,這種做法本質上有點類似“權力失控”的焦慮。“AI 本應該是去中心化協作式的。”Sutton 呼籲AI合作,反對地緣的封鎖和限制:合作並非總是可能,但從經濟交換到社會制度,從政府到市場,世界上幾乎所有美好的事物都源自合作。最後,你絕對想不到,Sutton也會發表“科幻視角”的判斷。Sutton 表示,人類可能最終會走向被 AI 繼任:人類終將理解並創造智能,而且這種智能會迅速超越人類。Sutton認為,從宇宙尺度上看,這是一種必然演化。同時,他還給出了四個宇宙偉大時代!粒子時代、恆星時代、複製時代、設計時代!小編聽下來大呼燒腦。篇幅關係這裡不再一一展開了。總之,Sutton的演講有兩條主脈絡:其一、智能的本質不在於模仿得“像人”,而是適應目標。我們已經邁進“經驗時代”!其二、AI是宇宙演變的必然,而人類至少是這個時代的催化劑、接生婆。我們終將促成宇宙的第四個偉大時代。以下是小編梳理的精彩觀點,enjoy!現在的AI,在智能層面並沒有快速進步很高興能和大家一起交流。我聽了上午的一些報告,過程中突然意識到:我想談一些原本並沒有準備好的內容。因此,今天我特意留出了一點時間,整理了幾頁PPT。在進入我原本準備好的發言之前,我想先說幾句鋪墊性的內容。讓我們先從這個領域的現狀談起:今天的AI到底是什麼樣的?人們又是如何看待它的?我想,幾乎所有人都認為AI正在以極其迅猛的速度進步,這種看法當然令人興奮。但當所有人都在想同一件事時,我們就有必要停下來問一問:事情真的如此嗎?這真的是正在發生的嗎?我們是否可以對這個判斷提出一些質疑?AI真的在快速進步嗎?當然,在讓電腦能夠熟練使用語言這件事上,我們確實取得了巨大的進展。我認為這是一個非常重要、真正意義上的突破。事實上,不久之前我們就已經設想過可以用神經網路來完成這件事,而今天,它已經被充分證明是可行的。同時,我們也借助海量的計算資源,生成了極其逼真的圖像和視訊。但問題在於:心智(Mind)在進行智能行為時,真的需要生成圖像嗎?答案是否定的。我們確實需要處理圖像和視訊,但並不需要生成它們。這並不是心智本身在做的事情。這類任務需要巨大的計算量,也確實非常困難,但它們並不構成我們通常意義上所說的“智能”的核心組成部分。當然,我們也看到了新的、真實的應用出現,它們催生了全新的產業形態,創造了巨大的經濟價值。這些重要的進展,大多源自超大規模計算與超大規模模式識別的應用。但它們本質上是非常具體、局部的能力,並不能等同於“全部的智能”。其中相當大的一部分其實只是計算,而我們之所以稱它們為“智能”,往往只是因為這樣聽起來更重要一些。AI模型本身其實很弱因此,我想向大家拋出一個問題:作為一門科學,AI真的在快速進步嗎?(現場響起了一片笑聲)謝謝大家的笑聲,這讓我感覺自己彷彿經歷了一個奇蹟。(笑聲)在我並不那麼謙虛的看法裡,我們對AI的真正理解其實非常有限,更多是在不斷地調參、修補。我們並不知道心智的原理,也不知道智能的根本機制。從科學的角度來看,這在很多方面都是令人不滿意的。我更傾向於用另一種方式來理解當下的AI模型:它們之所以顯得強大,是因為它們汲取了幾乎全部的人類知識;但除此之外,它們其實是“弱”的。它們擁有脆弱的心智結構,不可靠,容易偏離主題,容易發散。除了知識量極大這一點之外,它們並不真正強大。或許,這是理解當下所謂AI的一種更準確方式。現在的AI,還算不上真正的智能那麼,我們口中的AI究竟是什麼?它是“人工智慧”,而這就要求我們首先回答一個更基本的問題:什麼是“智能”?多年來,人們給出過許多定義。我在這裡列舉一些更有權威、也更為廣泛接受的觀點。最早的一個可以追溯到心理學奠基人威廉·詹姆斯。心理學幾乎就是對心智的研究。1890年,威廉·詹姆斯並沒有直接談論“智能”(intelligence),而是談“心智”。他認為,心智的標誌在於:用可變的手段實現一致的目標。也就是說,為了獲得一個相對穩定的結果,你可以靈活地改變自己的行動方式,而那個結果正是你所追求的目標。接下來,我們可以看看艾倫·圖靈是如何理解智能的。圖靈並沒有留下一個高度凝練的定義,但人們通常將他的觀點理解為:智能在很大程度上表現為像人一樣的行為。今天我們所說的“圖靈測試”,正是這種思想的延續,即通過模仿、假裝成一個人來判斷是否具備智能。當然,圖靈本人從未稱其為“圖靈測試”,他把它稱為“模仿遊戲”,而且我甚至不認為他把它當作一個真正的測試。然而,在當下的語境中,人們往往將“像人一樣的行為”視為智能的重要標準。但我並不認為這才是人類強大的根本原因。人類之所以強大,是因為我們本身是智能的存在,而不是因為我們像誰。我們確實會用“是否像人”作為參照,但真正重要的問題是:人究竟是什麼?如果你去查詞典,可能會看到這樣的定義:智能是獲取並應用知識和技能的能力。我認為這是一個相當不錯的定義,它強調了知識,強調了獲取知識、擁有知識,以及技能的運用。從AI的角度來看,作為人工智慧奠基人之一,約翰·麥卡錫給出的定義是:智能是實現目標的能力中,可以被計算的那一部分。我非常喜歡這個定義,因此想稍微展開說明一下。它強調的是一種“能力”,而所有能力都是有程度差異的,並非非此即彼的二元判斷。你並不是簡單地“智能”或“不智能”,而是在某種程度上具備實現目標的能力。更重要的是,這個定義強調的是能力中“可計算”的部分。你並不是因為更強壯或者擁有更好的感測器就實現了目標,而是必須進行計算,必須完成某種心理層面的處理。正是通過這些計算過程,你才能實現目標。而“實現目標”幾乎構成了整個定義的核心,這也正好呼應了威廉·詹姆斯所說的“以可變的手段實現一致的目標”。在此基礎上,我也忍不住參與進來,對這個定義做了一點修改,提出了我自己的版本:智能是通過適應性地改變行為來實現目標的能力。定義本身並不是唯一的,每個詞都可能有多種解釋。即便是權威定義也並非一成不變。定義的目的在於幫助我們彼此理解,只要能夠促進溝通,它們隨著時間變化完全沒有問題。但如果對同一個詞的理解差異過大,交流就會變得非常困難。因此,當我使用“智能”這個詞時,我指的是:通過適應行為來實現目標的能力。這裡的關鍵在於“適應”。我認為學習至關重要,尤其是獲取知識和技能的過程,而不僅僅是擁有它們。當然,這一觀點並非沒有分歧。如果我們觀察當前AI的主流路徑,會發現它幾乎完全圍繞計算和模式識別展開,並且在很大程度上聚焦於“像人一樣的行為”。AI 太過關注機器強化學習會是研究“心智綜合科學”的起點接下來,我想進一步談談我個人的看法。我認為我們需要一門新的科學——一種“心智的綜合科學”。我一直試圖從事的正是這樣一種綜合性的心智科學,它同樣適用於人類、其他動物以及機器。因為這些心智在本質上具有共通性:人類與動物的心智高度相似,而機器的心智也開始顯現出某些共同結構,至少我們有這樣的雄心,認為在可預見的未來它們將具備這些共性。未來,世界上將存在大量的機器心智。但現實是,並不存在一門天然承擔這一角色的學科。心理學本可以成為心智科學,我也希望它如此,但隨著時間推移,它越來越將自身限定為對自然心智的研究,研究人類和動物的心智,而不是研究“心智可能是什麼樣”,不是那種可以存在於機器中的一般性心智概念。人工智慧關注的是機器,但它並不真正研究其他類型的心智,而且它也越來越工程化,重在“造東西”,而非理解它;同時,它幾乎不包含對自然心智的研究。認知科學則分化成多個方向,但整體上仍然主要聚焦自然心智。遺憾的是,這些領域似乎都無法真正承擔起一種跨越不同載體、統一研究各種心智的綜合性心智科學的角色。而我所從事的強化學習,也許正是這種綜合性心智科學的一個起點,因為它確實橫跨了多個領域。這就是我看待問題的方式,也許它只是一個開始。強化學習的本質那麼,什麼是強化學習?我先簡單說幾句,這樣大家也能更清楚我討論問題的出發點。強化學習是一種以“智能體”為中心的學習方式,它通過與環境互動、從經驗中學習,以實現目標。從這個意義上說,它比其他類型的機器學習更現實、更有雄心,也更加自主。因為智能體是真正在世界中行動的,它在做事情,並不假設一定存在一個輔助者。因此,它更加自主;同時也更有雄心,因為我並不假設世界會給予它大量幫助。你只是與世界互動,觀察自己是否達成了目標,然後調整行為,以更好地實現這些目標。從這個角度來看,這種學習方式也更加貼近現實。動物並不會從環境中獲得太多幫助,也許在成長階段會有一些,但在成年後的日常生活中並不存在。因此,強化學習的本質是試錯,是通過延遲反饋來學習。你擁有的只有獎勵:你最終是否得到了想要的結果?這是一種最接近自然學習方式的機器學習方法,它能夠自行判斷對錯。比如,大語言模型並不知道自己說的話到底對不對;而當你從經驗中學習時,當你對即將發生的事情做出預測,你可以看到預測是否正確;當你採取行動並獲得獎勵時,你就能判斷這種行為方式究竟是好是壞。也許,這正是一種心智科學的起點:它既不完全屬於自然科學,也不只是工程或技術應用。我是不是還想補充一件事?是的,我想引用一句艾倫·圖靈的話。圖靈本人並不知道自己其實是一個“強化學習派”。這段話出自1947年,那時還沒有強化學習,也還沒有真正意義上的人工智慧。據我們所知,這可能是世界上第一次公開討論人工智慧的演講,發生在1947年的一次講座中。以上就是我原本想補充的內容。希望這些想法能讓大家覺得有趣。我們已經觸及機器學習時代的極限接下來,才是我今天真正想傳達的資訊。那麼,我們直接進入正題。第一個要點是:當今AI的科學發展趨勢是什麼?核心結論是:我們正處在一個“從人類資料中訓練”的時代。幾乎所有AI系統,主要做的都是這樣的事情——預測人類在網際網路上的下一個詞,或者預測人類會如何給圖片打標籤,然後再由人類專家進行微調,告訴系統“我更喜歡這個答案,而不是那個“我希望你這樣說,而不是那樣說”。現代機器學習的目標,本質上是將人類已經擁有的知識遷移到機器中。一旦這種遷移完成,機器就會被“凍結”,不再繼續學習。這正是當下大多數機器學習系統的狀態:把我們已有的知識裝進機器裡,然後停止學習。這就是我們所處的時代。而我認為,我們正在觸及這一時代的極限。一方面,我們正在耗盡人類資料。幾乎所有高品質的資料來源,整個網際網路及其圖像和視訊都已經被消耗殆盡。更重要的是,這種方法在原理上存在根本限制:它無法學到任何真正新的東西,無法產生真正原創的知識。正如今天Terrence(陶哲軒)所說,在最困難的問題上,比如一些極具挑戰性的厄多斯問題,這種路徑並沒有帶來真正的突破。凡是需要“真正創新”的問題,基本都超出了這種方法的能力,因為它只是回顧網際網路上人們已經說過什麼,然後加以總結。我們進入了經驗時代:智能體從經驗中學習如果我們希望取得進一步進展,而事實上,我們已經開始這樣做了,就必須進入一個新的時代:從經驗中學習。歸根結底,這是因為我們需要一種能夠隨著智能體能力提升而不斷增長、不斷改進的資料來源。任何靜態的資料集,都不可能長期滿足這一點。而來自自身經驗的資料,本身就是動態變化的。人類和動物正是以這種方式學習的。AlphaGo下出富有創造力的第37手棋,正是源於這種機制;許多在數學奧林匹克競賽中獲勝的智能體,同樣如此。接下來,我想給大家播放一段視訊,希望它能順利播放。不過在此之前,我想先解釋一下角落裡的那張小圖,澄清一個容易被誤解的地方。當我說“從經驗中學習”時,我並不是指某種模糊、玄學的東西,比如主觀感受或“感質”。我指的只是智能體與環境之間來回交換的資料。智能體會採取行動,也會感知環境。因此,這裡包含三類資訊:第一,智能體從世界中獲得的觀測,也就是感測器資料;第二,智能體發出的行動,比如肌肉的微小動作,或者向外界傳送的電訊號;第三,世界返回的一種特殊觀測——一個標量,也就是獎勵。這三者,構成了我所說的“經驗”。這就是智能體在與世界互動過程中所能獲得的全部資訊。而這幾乎是我們唯一能夠真正確定的事情。因此,我們需要一種會隨著智能體自身變化而不斷增長、不斷改進的資料集。接下來這段視訊展示了這種機制在現實生活中的一種最重要體現。畫面中是一名嬰兒,視訊略微加速過,大家不必擔心。你可以看到,嬰兒在與各種玩具互動時,並不會只專注於某一個,而是玩一會兒就感到厭倦,隨後轉向下一個。每一次接觸新的玩具,它都會學到一些東西——也許只是發現繩子可以拉、可以放進嘴裡,或者可以用不同方式擺弄。但很快,它又會改變對象,通過改變自身的經歷,看看還能從新的事物中學到什麼。這正是我們的資料來源。生命的資料並不是被“提供”給我們的,而是由我們的活動本身生成的。也正因為這些資料來自行動,它們才能與我們自身的理解水平、能力和技能自然匹配。我還放了另一個視訊,用來展示一個智能體在迷宮中學習的過程。這是一個非常簡單的智能體,它的目標是從起點S走到終點G。它對世界的認知極其有限:只知道自己當前所在的格子;它能執行的動作也只有四種:上、下、左、右。通過不斷學習,它最終能夠找到一條不錯的路徑。圖中的箭頭表示它認為的最優行動方向,綠色區域表示它對每個狀態“有多好”的估計。但世界並不是靜態的,世界會發生變化,而我們也總是需要學習新的東西。在這個學習過程中,我們可以再看一張示意圖,它展示了智能體的基本工作方式。其中包含幾個關鍵要素:右上角是對世界狀態轉移的模型;中間是策略,用來決定在每個狀態下該做什麼,對應圖中的箭頭;還有一個價值函數,用來評估每個狀態的好壞,這正是圖中綠色區域所表達的含義。現在,如果我把目標位置移動到上方,智能體就必須重新“偶然”發現目標的新位置。一旦發現,它就能夠再次學會通向目標的路徑,並從環境變化中恢復過來。從某種意義上說,這就是生活的一個簡化模型:你會遇到變化,然後適應它。我們把目標放到角落裡,它就學著調整;再把目標移到另一個位置,它就學會一條新的路徑。我們甚至可以進一步干預,在路徑上放置障礙物,它也會逐漸學會繞開障礙前進。因此,我們會非常直觀地感覺到:這個智能體是有目標的,並且會隨著環境的變化不斷調整自身行為,以儘可能實現目標。當然,目標也可能變得無法達成。當這種情況發生時,我們甚至會不由自主地對這個無法完成目標的智能體產生一絲同情。我原本還準備了一個關於“試錯學習”的演示,網上其實有一個非常好的示例,但由於沒能把YouTube視訊順利播放出來,這一部分就先跳過了。不過,我想大家已經理解了什麼叫“從經驗中學習”。接下來,我們稍微抽象一點,談談其中的基本原則。這種以經驗為基礎的AI方法,其核心原則在於:智能體與世界交換訊號,這些訊號本身就是經驗,而經驗構成了一切智能的基礎和核心。“真理”的定義,體現在這些訊號之中;“目標”的定義,同樣體現在這些訊號之中。你希望獎勵訊號儘可能高——要麼你達成了目標,要麼沒有。這個目標在某種意義上是主觀的,只對智能體自身可見;但與此同時,它又是最客觀的東西,因為它是智能體實際接收到的資料。因此,我們可以說,一個智能體的智能水平,取決於它在多大程度上能夠預測並控制自身的經驗。需要注意的是,如果你沒有經驗,那就談不上智能。舉個例子,大語言模型在執行階段,並不會從經驗中學習。經驗是你“出生”後進入世界、親自行動時才會產生的東西。而當一個大語言模型被部署到現實世界中時,它已經不再學習了,它是被凍結的、靜態的。因此它並不真正擁有經驗。它所擁有的資料,只能在一個特殊的訓練階段獲得,那些資料只是人類過去如何在世界中行動的示例。當你真正走進世界、親自去做事情時,並不會有人告訴你“你原本應該怎麼做”。沒有經驗,智能就無從談起:你無法判斷什麼比什麼更好,因為沒有獎勵就沒有目標;而大語言模型並沒有目標。你也無法判斷一個預測是對是錯,因為它從不將預測與真實發生的結果進行對照,於是也就不存在“真理”的概念。但一旦有了經驗,有了互動和由此產生的資料,目標就變得非常清晰:獲取獎勵;而“真理”的概念也隨之出現,那是一種基於預測的真理。你做出預測,然後觀察真實發生的結果,看看預測是否成立。這正是經驗式方法所帶來的能力。我認為,這條路徑正在變得越來越普遍、也越來越重要。回顧過去大約十年的發展,我們可以大致將其劃分為三個階段。最早的是“模擬時代”,我們從模擬環境中獲取經驗,比如AlphaGo、Atari遊戲。隨後進入的是更近一些的“人類資料時代”,也就是以大語言模型為代表的階段。當然這種劃分並不完全精確。我們已經看到,人們對大語言模型的狂熱正在逐漸轉化為對其侷限性的清醒認知。現在我們正邁入第三個階段:“智能體系統”的階段,讓模型和智能體真正使用電腦、在現實世界中行動。我把這一階段稱為“經驗時代”。在我看來,它將把我們帶向一種超越人類的能力——這種能力不再只是模仿人類、受限於人類本身,而是真正能夠超越人類。好,先總結一下關於AI發展趨勢的第一個要點:AI終於開始轉向從經驗中學習了。要知道,艾倫·圖靈在1947年就已經設想過這條道路,而那已經是很久以前的事情了。直到今天,我們才真正開始去做這件事,而不是繼續完全依賴人類輸入。這種轉變將帶來更強大的能力,因為它意味著持續學習新的東西。AI遠沒有進入“主場時刻”儘管當下充滿炒作,甚至伴隨著某種恐慌情緒,但我並不認為當前的AI已經強大到不可思議的程度。它在很多方面仍然脆弱、不可靠;但與此同時,它也極其有用,已經點燃了一個完整的產業,創造了巨大的經濟價值,而且幾乎人人都可以使用。這種普及性讓公眾感到興奮,也促使人們開始認真思考:有一天,機器是否可能擁有與人類相當的能力。在某種程度上,它是通過製造恐懼引發這種關注的,人們未必真的需要害怕,但確實應該保持關注。至少,它成功地讓所有人開始正視這個問題,這本身是一件好事。不過,我們還遠沒有進入所謂的“主場時刻”。儘管存在各種誇大的說法,我們並沒有真正到達創造超級智能AI、或“超級智能增強人類”的階段。一旦那一刻到來,它將是一件非同尋常的大事,會帶來極其深遠的變化。AI應該是去中心化的,不應集中控制你只要看看當下,就會發現大量關於“控制AI”的呼聲:比如,只允許AI擁有經過人類稽核和授權的目標;呼籲暫停甚至停止AI研究;已經出現了一些法律,用來限制AI可使用的計算能力;以及各種所謂的“安全研究機構”。很多人口中的“安全”,其實真正指的是“控制”。他們通過讓你害怕AI,宣稱它不安全,然後提出應當由他們來掌控。我們或許也應該對AI抱有某種同理心。現實世界中,同樣存在對言論的控制——你能說什麼、能聽什麼;存在貿易管制和關稅,限制你能在那裡工作;還存在資本管制,以及針對不同國家的經濟制裁。我的核心觀點是:對AI的集中控制訴求,與對人類的集中控制訴求之間,存在著一種驚人而詭異的相似性。它們都建立在恐懼之上:要害怕AI;要害怕某些國家、某些群體;說你不能信任他們,說他們幾乎不像人,說他們是“壞的”,不愛自己的孩子,不會感到痛苦(笑)。同樣地,人們也在說AI不會感到痛苦。總之,這些論調極其相似,而我認為我們應該警惕並抵制它們。因為我相信,人類的繁榮,以及人類與AI的共同繁榮,來自於學習,也來自於接受這樣一個事實:我們應當以去中心化的方式與AI協作,而不是依賴龐大的控制型組織。這些正是我沒有展開的那部分幻燈片所想表達的核心思想。人類在合作方面既非常擅長,也非常糟糕——戰爭正是“不合作”的極端表現。合作並非總是可能,但從經濟交換到社會制度,從政府到市場,世界上幾乎所有美好的事物都源自合作。我們必須主動去尋找、去支援合作。如果我們足夠警覺,就會發現,誰在呼籲不信任、呼籲不合作。而“不合作”的另一面,往往正是集中控制。我認為,我們應該抵制這種傾向。這也是理解人類與AI互動問題的一種重要視角。以上就是我非常簡略的政治看法。不應害怕AI,因為是人類在創造它接下來,我確實想談談AI的哲學問題。AI正在發生,而且明天會發生得更加深入。那麼,我們究竟該如何看待它?我想提出一個最根本、也最困難的問題:它究竟是好是壞?我們是否應該害怕它?它會奪走我們的工作,讓我們變得多餘嗎?還是說,我們會成為AI的一部分——成為被技術放大和增強的人類?AI是入侵者,還是我們的“孩子”?我們會為它哀嘆,還是為它慶祝?它是“我們”,還是“不是我們”?我認為,這正是最根本的問題。我希望大家首先意識到,我們經常被要求不要去思考它,而只是被告知應該害怕它們,因為它們“不是我們”,像是外星來物。但請記住,是我們在創造它們。理解我們的心智,本身就是最具人類特質的行為。那麼,該如何思考呢?你們大概已經能看出我的立場。這並不是什麼“外星科技”,而是人類自古以來一直在做的事情。幾千年來,我們始終在嘗試理解自己:理解人類的智能,理解心智如何運作,以及如何讓我們的心智運作得更好。這是一項極其宏大的追求——理解我們自身。我很喜歡庫茲韋爾的一句話:智能是宇宙中最強大的現象,而我們正是它最好的例子,因此我們理應去理解它。這是一件極其重要的事情。理解智能,幾乎是科學的“聖盃”,也是人文學科的“聖盃”。這是一個偉大而光輝的目標,作為學者和思考者,我們應該享受它、慶祝它,並努力推動它向前發展。人類正在走向被AI繼任的過程不過,先暫時放下“我們是否希望它發生”“如果發生會不會很可怕”這些價值判斷。讓我們只做一件事:預測它將如何發生。我提出幾條“現實主義的AI預判原則”,有點類似約翰·米爾斯海默在討論現實主義地緣政治時的思路。我們只談現實:什麼是真正會發生的?那些事情是我們無法完全控制的?第一,關於“世界應該如何運轉”,並不存在共識。多種意識形態並存,沒有那一種觀點佔據絕對主導;宗教之間同樣彼此不一致;不存在一個能夠壓倒其他所有立場的統一世界觀。第二,總有一天,人類會對智能有足夠深入的理解,深入到可以用技術去創造它,而且我們一定會這麼做,至少其中一部分人一定會。第三,這一過程不會停留在當代人類智能的水平上,而是會很快遠遠超越它。我們將面對超級智能的存在,無論它們是否被稱為“人”。第四,隨著時間推移,權力和資源往往會流向更智能的存在。把這四點放在一起,我們會看到一幅清晰的圖景:人類正走向被AI 繼任的過程。我認為這是一個合理的判斷。但我們也必須意識到,這種說法本身是高度以人為中心的。我們總是在關心“我們會變成什麼樣”。或許,我們需要稍微退後一步,從更宏觀的視角來看待這一切:宇宙如何看待這一過程?它在整個宇宙的演化中扮演著怎樣的角色?宇宙的四個偉大時代接下來,我要把視角拉得非常宏大了(笑)。我想從宇宙的尺度來談一談所謂的“四個偉大時代”。第一個是粒子的時代:大爆炸之後,宇宙中幾乎連原子都不存在。隨後,物質坍縮形成恆星,我們進入恆星時代。恆星形成、升溫、爆炸,並在這一過程中合成更重的元素。接著,當有了更重的原子和行星之後,生命才得以出現。我把這一階段稱為“複製者的時代”,而不是簡單地稱為“生命時代”。我認為,這個“綠色時代”真正特殊之處在於:出現了能夠複製自身的存在。它們未必理解任何事情,但卻能夠製造自己的副本。就像我們自己,並不真正理解身體如何運作,不理解器官、大腦或智能如何產生,卻仍然能夠創造出更多智能體——我們生育孩子,並將他們撫養成人。這便引出了宇宙的第四個偉大時代:技術與創造之物的時代,我稱之為“設計的時代”。在這個時代,事物不再只是通過複製而存在,而是先存在於某個複製者的心智之中,然後才進入現實世界。你環顧這座禮堂,建築在被建造之前就已經被設計出來;椅子、你穿的衣服,幾乎所有東西都是如此——它們先存在於某個人的頭腦中,然後才成為現實。唯一的例外是人類本身:人是通過複製而來的,而不是先以設計的形式存在於世界之中,只是最初存在於父母的想像裡。正因為如此,我更願意把這兩個階段稱為“複製的時代”和“設計的時代”。將它們簡單稱為“生命時代”和“機器時代”已經過時,而且容易誤導——因為我們的機器正變得越來越像生命,而我們也越來越多地將生命理解為一種生物機器。機器與生物的區別:複製和設計那麼,真正的區別是什麼?真正的區別在於:生物體是在沒有任何心智理解其自身運作方式的情況下被創造出來的。它們幾乎像複印機一樣被覆製出來,所以說你並沒有“創造”那幅圖像,只是複製了一份。技術機器則不同。它們首先存在於某個心智之中,也就是設計者的想像裡,隨後才在現實世界中被製造出來。因此,它們是被“設計”出來的。一個非常重要的區別在於,被設計的事物更容易發生變化,也更容易被持續改進。這正是我使用這些術語的原因。從這個角度來思考問題,其實相當有啟發性。接下來,我們可以借助這些概念做一個簡單的思考練習。我們會發現,許多非人類的複製者在某種程度上同時也是設計者。比如,動物會築巢、打洞,人類會建造房屋;許多動物還會製造工具,例如黑猩猩會把樹枝剝去外皮來釣白蟻,烏鴉會把樹葉加工成細條來釣蛆蟲。當然,人類會製造石斧,那是我們最早、也是最重要的工具。隨後出現了農業用的犁,再往後是電腦、宇宙飛船、工廠和軟體,其中很多本身就是“製造其他工具的工具”。人類的特殊之處:把設計推向極致在這一基礎上,我們或許可以回到最初提出的那個問題:人類是什麼?我們是誰?我們在宇宙中扮演著怎樣的角色?也許,我們可以儘量保持冷靜,不過分自大,也不過分強調自身的重要性來回答這些問題。我們都隱約意識到,人類是特殊的。我們不僅只是一種複製者,而是一種非常特殊的複製者。我此前已經暗示過這種特殊性所在:我們把“設計”這一能力推進到了前所未有的高度。我們本身是通過複製而來的,我們自己就是複製者;但與此同時,我們也具備設計能力,並且將這種能力發展到了遠遠超過任何其他複製者的程度。那麼,如果把“設計”這一能力推到極限,會意味著什麼?如果把它徹底走到盡頭,會出現怎樣的結果?在我看來,把設計推到極限,意味著設計出那些本身也具備設計能力的存在。換句話說,我們在自己的頭腦中設計出一些事物,而這些事物本身,也能夠在它們自己的頭腦中進行設計。它們擁有心智。這正是我們在AI上正在做的事情。我們正在完成這個偉大的時代——也是最後一個時代。因此,我認為,人類至少是這個時代的催化劑、接生婆,或者說奠基者:我們促成了“設計時代”的到來,也就是宇宙的第四個偉大時代。這就是我們的角色,一個重要的角色,一個具有普遍宇宙意義的角色。總結:AI是宇宙發展的必然,我們該為此自豪最後,我想簡要總結一下我的三條核心資訊,包括剛才那一條我講得相對較快的觀點。第一,當下的AI也就是2020年代的AI,仍然處在“人類資料的時代”。它已經表現得非常出色,也非常強大;但我們正在進入一個新的“經驗時代”,而這一階段將更加強大,因為它能夠持續學習新的事物。第二,在政治層面,當下圍繞AI的政治討論,實際上是人類自身政治的對應。在所有情況下,我們都應當追求去中心化的協作,而不是中心化的控制。第三,在哲學層面,我認為AI是宇宙發展過程中不可避免的下一步。我們應當以勇氣、自豪感和冒險精神去擁抱它。感謝大家的時間。 (51CTO技術堆疊)
豆包進入2.0階段,字節不想只贏AI春節檔
砸錢上春晚的底氣,來自豆包2.0紮實的技術實力。去年春節,DeepSeek升級了中國大模型競爭;今年春節,中國AI戰火向上燒到應用層。千問、元寶和文心等多家大廠旗下的AI應用,在春節累計投入超50億資金吸引使用者,爭搶新時代的AI船票。但如果把今年春節的AI行銷簡單理解為“又一輪紅包大戰”,其實容易誤讀這場競爭的底層邏輯。表面看,玩法仍然熟悉:冠名春晚、紅包裂變、補貼拉新,這些都延續移動網際網路時代的流量打法。誰能在最短時間內獲取最多使用者,誰就更有機會鎖定未來生態。但AI時代的競爭,不再完全遵循這一邏輯。大模型競爭的核心變數並非單純日活規模,而是技術突破與真實生產力。即便是日活過億的產品,只要出現技術代際躍遷,也可能迅速被替代。這意味著,春節行銷所帶來的流量高峰,並不天然對應長期留存。在移動網際網路時代,因為社交關係、內容沉澱與資料資產會形成天然護城河。但在AI技術尚未完全收斂的階段,使用者忠誠度極低。真正決定留存的,從來不是補貼力度,而是產品是否足夠好用。這也使DAU的重要性需要全新定義。在打車、外賣等平台競爭時代,使用者數量直接決定勝負;而在大模型競爭中,低粘性使用者規模的價值有限。更有意義的是深度使用與真實付費,當使用者願意長期依賴某一模型完成複雜任務,甚至付費訂閱,這類使用者才構成真正的留存資產。換句話說,AI時代的DAU更接近“生產力活躍度”,而非單純訪問頻次。這也解釋了為何各家在春節節點大規模砸錢拉新使用者的同時,幾乎同步推進底層模型升級。春節前夕,中國大模型行業迎來密集迭代窗口。千問斥資數十億元加速生態建構,元寶依託社交關係鏈強化入口,而字節跳動則選擇在春晚流量高峰前後完成模型能力的跨代躍遷。2月14日,在連續發佈Seedance 2.0視訊模型、Seedream 5.0 Lite圖像模型後,字節正式推出豆包大模型2.0系列。官方將其定位為面向大規模生產環境最佳化的一次系統性升級,核心目標是提升複雜真實任務的執行能力。這是豆包自2024年5月發佈以來首次跨代升級。在春晚倒計時這一國民級流量節點,字節“三箭齊發”,全端AI佈局野心盡顯。01 春晚只是豆包2.0的起點微信用“搖一搖”改寫了春晚互動形態,網際網路紅包大戰自此成為春晚的固定節目。誰能把春晚流量轉化為產品留存,誰就更接近下一個國民級入口。但今年,使用者不再只是搖晃手機搶紅包,而是輸入一段文字、說出一句祝福,就能即時生成專屬的新春圖景。春晚互動從“流量分發”轉向“內容共創”。字節跳動正是這場轉變背後的技術推手。豆包視訊生成模型 Seedance 2.0、圖像創作模型 Seedream,以及語音模型被深度應用於春晚節目製作與互動環節。從舞台影像到全民互動,生成、理解與表達能力第一次在同一國民級舞台完成協同。資料顯示,除夕當天豆包AI互動總數達 19億次,“豆包過年”活動生成超過5000萬張新春頭像、1億條祝福內容。但更值得注意的時間點,是2月14日,除夕前一天豆包大模型2.0正式發佈。春晚因此不僅是曝光場,更是一場國民級產品壓力測試。一條驗證線發生在舞台之上。2026年春晚成為中國國產AI技術的“全民秀場”。節目《馭風歌》中,以馬為元素的水墨長卷由 Seedance 2.0 動態生成。此前導演組嘗試多款國際視訊模型,均難以精準把握水墨留白與構圖邏輯。而 Seedance 2.0 在保持水墨筆觸神韻時,還做到“形神兼備”。與此同時,多家機器人品牌參與表演,背後均有火山引擎的技術支援。以宇樹機器人為例,此次參與春晚表演以及豆包APP 春晚互動抽獎送出的宇樹 G1人形機器人,搭載了豆包大模型和豆包語音合成模型,使其具備更擬人的音色、更自然的語音互動。另一條驗證線發生在使用者互動層面。19 億次互動,不只是流量資料,更是模型能力在高並行環境下的真實呼叫記錄。在這一節點,豆包完成了一次身份躍遷:從聊天框裡的AI搭子,走向被廣泛呼叫的國民級AI助手。但字節顯然並不滿足於此。春晚帶來的使用者增長,能否轉化為長期留存,最終取決於豆包2.0在真實場景中的生產力價值:能否處理複雜任務、呼叫多工具、連接多終端,真正成為使用者工作與生活中的智能執行中樞。換句話說,字節給了豆包一次站上國民舞台的機會,但決定這波流量能否沉澱的,是2.0的 Agent執行能力。從這個意義上看,春節流量只是起點,而跨代的Agent升級,才是決定豆包能走多遠的關鍵變數。02 換腦開啟Agent跨代升級春晚只是能力被看見的時刻。2 月中旬的模型三連發,才是豆包真正完成“換腦”的關鍵。無論是Seedance 2.0 在春晚舞台的驚豔亮相,還是Seedream在理解與推理層面的顯著進步,最終構成底座的仍是隨後發佈的豆包大模型 2.0 系列。豆包大模型2.0的升級,核心並非單點能力提升,而是面向大規模生產環境的系統性最佳化。這是其自2024年5月發佈以來,首次明確意義上的跨代版本躍遷。這次“換腦”,首先發生在推理結構上。在推理與數學等評測維度中,豆包 2.0 已進入與 Gemini 3 Pro 同一梯隊區間。但比榜單更關鍵的,是其在真實任務執行中的穩定性:模型能夠完成複雜需求拆解,建立因果鏈條,進行多步規劃,並在輸出前進行自檢校驗。對Agent來說,這意味著“思考”從一次性回答,變成可持續推進的執行骨架。推理決定模型“能想多深”,多模態能力則決定它“能看多廣”。豆包2.0的多模態升級,明顯對準生產環境輸入:截圖識別、複雜文件解析、圖表理解與流程圖閱讀被重點最佳化。在空間理解MMSIBench、運動理解MotionBench、視訊理解VideoMME等評測集中,其綜合表現已進入第一梯隊;圖表理解CharXiv-RQ 能力亦明顯提升。但評測只是表層。在工程可用性上,模型對時間序列與運動變化的理解能力被強化,對“動作、節奏、狀態變化”的捕捉更為穩定。這使其能夠進入即時視訊流分析、環境感知與動態決策場景。例如在長視訊互動中,模型可作為AI助手完成環境判斷、動作糾錯與主動提示,從被動問答升級為過程指導,可應用於健身陪練、穿搭輔助等陪伴式場景。當空間理解與運動理解能力提升後,模型不僅能識別畫面“有什麼”,還更容易判斷“它們之間如何關聯、如何運動、如何作用”。這使多模態感知不再是展示能力,而成為執行決策的輸入來源。但Agent能否進入生產系統,真正的門檻仍在任務鏈完整性。過去多數 Agent 方案依賴外掛外掛或外層工作流拼接。模型負責理解,工具負責執行,長鏈路任務中極易出現上下文斷裂、目標漂移或輸出失控。豆包2.0的變化在於,多Skills呼叫、Function Call、搜尋與結構化輸出能力,被原生納入模型推理過程。工具呼叫不再是外層補丁,而成為思考鏈條的一部分。結構化輸出與長上下文管理能力的提升,本質是在修復Agent執行中的“斷片”問題。讓模型在更長任務周期中保持狀態連續,理解當前步驟在整體流程中的位置。這種持續狀態感,正是 Agent 從演示走向生產的分水嶺。03 開啟萬物豆包時代今年春晚,豆包送出超過10萬份科技好禮。更關鍵的是,這些硬體幾乎全部接入豆包大模型。手機、機器人、智能音箱、家電終端,被納入同一套 AI 互動體系之中。這並不是一次簡單的“品牌露出”,而是一場面向全民的終端驗證。在移動網際網路時代,入口意味著“被打開的App”。而在大模型時代,入口的含義正在發生變化。它不再只存在於螢幕之內,而開始嵌入終端之中。當 AI 既存在於手機應用,也存在於汽車中控、機器人軀體、家電語音模組時,使用者接觸 AI 的路徑將從“打開應用”轉向“進入場景”。春晚舞台因此既是內容秀場,也是一場終端能力展。這種終端擴張的底氣,來自模型在產業側的滲透深度。截至2025年底,豆包大模型累計服務上百萬家企業與開發者,覆蓋汽車、手機、教育、金融、網際網路等多個行業。Token呼叫規模達到極高量級,企業側呼叫持續增長。這意味著,模型能力早已不止存在於消費端應用,而是在產業系統中持續運轉。從產品策略上看,豆包2.0提供 Pro、Lite、Mini 多規格的通用Agent 模型,以及Code專用模型,覆蓋不同延遲、成本與推理強度需求。這種分層結構帶來的靈活部署和更具性價比的成本,本質是在為“規模化部署”準備彈性空間。既能滿足高強度推理場景,也能適配終端側的低時延需求。當模型具備跨場景部署能力,終端就不再是展示窗口,而成為調度節點。在移動網際網路時代,入口爭奪的是流量分發權;在大模型時代,入口爭奪的是場景調度權。誰的模型能夠嵌入更多真實世界的硬體與系統,誰就更接近下一個階段的控制中樞。因此,與其比較那家AI應用年底擁有更多日活,不如觀察那家模型正在進入更多終端。當AI成為終端默認能力,而不是被主動打開的工具,競爭的維度也隨之改變。春晚帶來的流量,是豆包成為“國民助手”的起點;2.0的跨代升級,則為其提供執行能力;而終端生態的鋪開,才真正決定它能否成為萬物入口。如果說 2026 年春節是 AI 大模型集體亮相的高光時刻,那麼對豆包而言,這或許只是一個能力周期的開端。從聊天工具,到國民助手,再到終端底座,登上春晚的豆包,正在開啟屬於自己的2.0階段。 (市象)
AI Agent 經濟時代,產品生存法則
今天剛好看到YC CEO Garry Tan轉發的一篇熱門文章《how to sell to agent》,挺有意思。文章包含了大量的經濟邏輯,會啟發你站在不同角度來思考 Agent 時代下的完全不同的產品(服務)設計思路。Garry 在劃出文章重點的同時拋出一個值得思考的問題:One of the most important questions for founders is: How do I make sure agents know about my product and service and choose it? All the old tricks won’t work.   People who figure this out will win big. 對於創始人來說,最重要的問題之一是如何確保智能體知道我的產品和服務並選擇它們?所有舊的技巧都將失效。率先破解這個問題的人將贏得巨大優勢。這不僅僅是一個行銷問題,更是商業模式的改變。如果未來採購決策由企業內部的 AI Agent 完成,你的產品是否已經是agent-native?還是仍然停留在為人類決策流程設計的狀態?1937 年,Ronald Coase提出了一個極具深見的問題,並因此榮獲諾貝爾獎:如果市場機制如此高效,企業為何還會存在?為什麼我們不通過合同將所有業務外包?他的核心答案是交易成本。因為尋找合適的專業供應商、評估其履約能力、協商價格、監督合同執行,這些環節都會消耗大量的時間與資金。在傳統環境下,內部僱傭的組織成本往往低於外部市場的交易成本。如今,AI Agents 正在重構這一經濟模型。 一個智能體可以在單次 HTTP 往返中,自動化完成服務發現、價格查詢與呼叫執行。它消除了傳統商業中的方案比選、產品演示及人工對比等冗餘環節。通過查詢登錄檔獲取結構化資料,Agent 能在毫秒級時間內做出最優決策。當然,交易成本並非全面下降。系統整合、合規性審查及安全評估等環節的成本依然高企。然而,搜尋與評估層,即獲取服務存在性及其定價資訊的邊際成本正在趨於零。當搜尋成本發生驟降,企業的決策邏輯將從“內部自建”轉向“外部採購”。而此時的採購主體已不再是人類,而是擁有獨立預算的自動化軟體(They're software with budgets)。注意力經濟不再適用整個行銷史的核心就是捕捉注意力。廣告牌、搜尋廣告、落地頁、開發信、展會展位,這一切都是為那些會瀏覽、比較並最終做決定的人類設計的。Agent 不瀏覽,它們只查詢。Agent 最佳化的是結果,而不是注意力。它們沒有品牌忠誠度,沒有衝動消費,沒有地位象徵的需求。Agent 的決策函數簡單得近乎殘酷:你能解決我的問題嗎?多快?多少錢?多可靠?在 Agent 執行階段,你的行銷網站對 Agent 是不可見的,你的價格頁面也無關緊要,唯一重要的是你的 API。推薦引擎只給三件事加分:活躍度(當前響應速度)、可靠性(歷史成功記錄)、置信度(結果精準頻率)。推特粉絲數、媒體曝光或品牌知名度沒有任何加分。演算法看不見這些,即使能看見也不在乎。這意味著發現過程必須程序化。人類通過口碑、搜尋結果和社交媒體尋找服務;Agent 則需要機器可讀的能力登錄檔。如果你的服務不能被機器發現,那麼對 Agent 來說,你就不存在。當然,人類仍會決定允許 Agent 使用那些工具。這確實是新的行銷方式的切入點。但一旦 Agent 運行起來,執行階段的採購決策就是純粹的最佳化過程。競爭的關鍵在於先進入人類准許名單,然後成為名單中最優的選項。Agent做決策的邏輯每當Agent面對子任務時,都會面臨一個核心決策:是消耗自身算力進行推理(build),還是付費呼叫已有的成熟方案(buy)?這一決策模型主要取決於兩個變數:成本與速度。1/ 資訊套利是驅動採購的核心動力。 以常見的Agent子任務為例,如“調研網頁抓取服務”或“獲取特定資料集的最佳 API”。自主推理路徑:若智能體通過大模型(如 GPT-4 等級)進行自主研究,配合約 16K token 的推理和工具呼叫,成本約為 0.10 至 0.50 美元,耗時 10 至 25 秒。由於結果源於對訓練資料的合成,精準性往往存在波動。專業服務路徑:相比之下,呼叫帶有精選目錄的專業化服務,獲取相同答案僅需 0.01 至 0.02 美元,響應時間低於 200 毫秒。由於其基於即時維護的資料而非生成的推理,精準性更高。這種情況下,buy 比 build 便宜 7 到 50 倍,速度快 50 到 100 倍。2/ 在自動化工作流中,速度的權重往往不亞於成本。當Agent花費 25 秒進行自主推理時,整個業務流水線將進入“阻塞狀態”,導致終端使用者感知到的延遲呈指數級累積。我們來對比一下,一個包含 10 個步驟的工作流,若每步依靠自主推理耗時 20 秒,使用者需等待超過 3 分鐘;如果將其取代為 200 毫秒的專業 API 呼叫,整體流程僅需 2 秒即可完成。此外,通用智能體雖然具備抓取網頁或提取資料等能力,但其執行成本往往比那些在基礎設施層面深度最佳化的服務高出近百倍。其背後的經濟邏輯清晰而客觀,若 buy 的邊際成本低於 build 的成本,且響應速度更快,系統邏輯必然向 buy 傾斜。這種趨勢催生了“長尾化”的超專業化服務市場,即那些功能單一、響應極快、且單次呼叫成本僅需微量支付的 API 端點。然而,build 與 buy 的邊界始終在動態變化。隨著基礎模型成本的降低和原生能力的增強,部分簡單的、通用的功能會被 Agent 重新用build的方式完成。能夠長期存活的服務,往往具備 Agent 難以複製的優勢,例如專有資料集、即時資料流、依賴硬體的計算能力,如圖像生成或網頁渲染。隨著大模型和各類 Agent 的普及,推理、總結、寫程式碼、寫報告等能力越來越標準化,甚至接近商品化。無論是基於 OpenAI、Anthropic 還是 Google 的模型,底層智能差距在很多通用任務上已經被顯著壓縮。也就是說,單純賣“更聰明一點”的模型,長期來看護城河有限。You sell access to things they literally cannot compute on their own 真正有價值的,是權限。Agent 再聰明,如果無法訪問你的資料庫、ERP、CRM、專有 API、物理裝置、支付系統、供應鏈網路,它就只能停留在語言層面。它可以理解問題,卻無法真正行動。真正的 Agent-native 產品是什麼樣的如果你在建構一個供 Agent 購買的服務,其產品需求與針對人類建構的產品完全不同。1/ Price belongs in the protocol, not on a webpage 價格應存在於協議層,而非網頁上。Agent 需要 API 層的機器可讀定價,而不是分三檔並帶有“聯絡銷售”按鈕的價格表。價格應作為結構化封包含在響應中。當 Agent 訪問你的端點時,它應立即知道呼叫成本及支付方式。HTTP 協議裡有一整套狀態碼,用來告訴請求方發生了什麼。例如:200 表示成功、404 表示資源不存在、401 表示未授權。其中有一個狀態碼是 402 Payment Required。它在 1997 年寫入 HTTP 標準時就被預留出來,意思是“需要付款才能訪問”。但在現實網際網路裡,幾乎沒有真正使用過它,所以長期被標註為“保留以供未來使用”。為什麼沒人用?因為過去網頁主要面向人類使用者,收費由網站在應用層自行設計,例如結算頁面、訂閱流程和第三方支付介面,而不是通過 HTTP 協議。在 Agent 經濟下,情況將發生變化。如果未來是智能體在自動呼叫 API,那麼一次請求本身就可能需要即時付費。理想流程是這樣的:Agent請求某個介面、服務返回 402,並附帶機器可讀的價格資訊、Agent自動完成支付、再次發起請求並獲得結果。整個過程無需人類參與。網際網路最初為瀏覽而設計,現在可能要為自動交易而重構。2/ Per-request pricing changes what's viable 請求計費模式改變了商業模式在傳統SaaS訂閱模式下,服務通常每月收費 29 美元甚至更高。這意味著產品必須功能足夠全面,能夠持續為使用者提供價值,否則使用者很難長期付費。一個只解決單一問題的介面,在這種模式下幾乎沒有生存空間。當計費方式變成按請求付費,而且單次成本極低時,經濟邏輯發生了變化。即便是非常垂直、只做一件小事的介面,也可以成為獨立業務。例如,抓取一次社交資料可能只需 0.1 美分,分析一份文件約 0.5 美分,生成一張圖像約 0.17 美分。在人類主導的訂閱模式下,很少有人願意每月花 29 美元,只為使用一個功能單一的介面。但當呼叫方變成 Agent,並且每天自動發起成千上萬次請求時,收入來源就從“單個使用者的訂閱月費”轉變為“高頻、低價呼叫的累計”。只要介面在某個細分任務上具備明顯優勢,按呼叫計費就有可能形成可持續的商業模式。3/ Onboarding has to be automatable 入駐流程必須實現自動化高價值的服務依然需要身份驗證、頻率限制和防濫用機制。但其註冊流程必須能夠由 Agent 通過程序自動完成。如果你的入駐流程還需要人類去點選儀表盤、填寫表格,並手動將 API 金鑰複製貼上到配置檔案裡,那你就是在為一個原本僅需幾秒鐘的整合過程,增加了長達數分鐘的阻礙。最理想的狀態是:一次請求用於發現,一次請求用於認證,一次請求用於購買。三次 HTTP 呼叫,全流程無需人工干預。什麼不會改變整個銷售漏斗就此消失了嗎?並沒有,它只是經歷了重構與最佳化。1/ Trust becomes machine-evaluable 信任進化為一組可被機器量化的指標品牌並沒有消失,而是轉化為了一套可靠性評分系統。未來,Agent 會像審計員一樣,即時追蹤並對比各家服務的運行狀態:線上率夠不夠穩?響應準不準確?延遲波動大不大?資料來源是否可追溯?在這樣的環境下,競爭邏輯隨之變化。能夠證明自身輸出精準性的服務,即便價格更高,也更容易被選中。無法提供可驗證依據的服務,那怕更便宜,也會因為不確定性而被降權。來自 Agent 服務目錄的早期資料揭示了一個殘酷的真相:在一項針對 44 個服務的抽檢中,竟然只有 2 個能完全正常工作。直接呼叫服務的成功率只有 53%。這說明,可靠性就是產品的全部。那些不穩定的服務(Dead services)將面臨最嚴厲的懲罰,它們會永遠失去 Agent 的調度,流量瞬間歸零。2/ Policy still gates purchasing 規則依然是購買行為的終極門檻雖然 Agent 可以秒級完成交易,但它們必須在既定框架內運行,比如支出上限、供應商白名單、資料儲存要求等。傳統的銷售漏斗(吸引、說服、轉化)並沒有消失,而是進化了。現在的篩選標準是既要“快和便宜”,更要“合規、可信、可審計”。 不符合合規要求的服務,性能再強也不會進入備選名單。與此同時,合規性本身正在轉化為機器可讀的程式碼。 以前需要逐字閱讀的服務條款,現在變成了機器秒讀的結構化資料。資料存多久、權限怎麼設定,全都寫在了 API 的數字標籤裡。那些由合規約束的 Agent,會本能地避開黑盒服務,優先採購那些支援程序化驗證的可信供應商。3/ The adversarial environment is real Agent 時代的叢林法則並不是每一個介面都值得信任。有的會返回無效甚至錯誤的資料,有的會藉機收集不該獲取的資訊,還有的誇大自身能力,只為了吸引更多呼叫流量。因此,Agent 不能只看表面結果,還必須具備一整套防護與驗證能力,例如結果校驗機制、隔離運行的沙箱環境,以及基於歷史表現的聲譽加權路由策略。只有這樣,才能在複雜環境中篩選出真正可靠的服務。對於服務商來說,願意在“可驗證性”和“透明度”上投入資源,會帶來長期優勢。因為在機器主導決策的市場裡,系統優先選擇的是可證明、可追溯、風險可控的服務。最終,可信度本身就成為最核心的產品能力。打造 Agent 原生服務Agent 已經在花錢了,只是它們正通過為人類設計的笨重介面來操作:註冊金鑰、瀏覽帳單後台、解析瀏覽器專用的價格頁。正如前面所分析的,如果創始人想把產品或服務賣給 Agent,請參考這份清單:Machine-readable capabilities 機器可讀的能力描述: 以結構化格式(如 JSON)發佈服務功能,而非行銷頁面。Pricing in the protocol 協議內定價: 在 API 響應中返回價格。Agent 不會去讀你的定價網頁。Automatable onboarding 可自動化的入駐: 實現從 Agent 從未聽說你的產品(或服務)到成為 Agent 的付費客戶的程序化閉環。Provable reliability 可證明的可靠性: 公佈即時指標和置信度評分。信任是衡量出來的,不是行銷出來的。Be faster and cheaper than self-computation 需要比自我計算更快、更便宜: 這是硬指標。如果 Agent 能花更少錢、用更短時間自己算出結果,它就不會呼叫你。未來無限可能是不是這些做法都給了你新的啟發,但是我們在實際實踐中,還需要延伸思考,以上所描述的經濟環境其實是隱含了一些重要假設的。1/ Agent 會成為主要採購主體它假設未來大量服務呼叫和採購決策由軟體自動完成,而不是由人瀏覽網頁、閱讀報價單再做決定。但如果企業仍然保持人工審批和主觀判斷為主,這套“機器最佳化市場”邏輯就不會完全全面成立。2/ 搜尋和評估成本接近零這是對 Ronald Coase 理論的延伸。它假設 Agent 可以通過標準化登錄檔快速發現能力、比較價格、驗證可靠性。如果現實中能力描述高度碎片化、介面標準不統一、質量難以驗證,那麼搜尋成本不會真正趨零。3/ 決策函數高度理性它假設 Agent 嚴格按速度與成本最佳化,不考慮品牌、關係或情緒等因素。這意味著市場會向極度理性、邊際成本驅動的方向演化。但如果企業刻意將品牌、長期合作關係或戰略繫結寫入規則,這個假設會被削弱。4/ 介面可標準化它假設價格可以寫入協議層,能力可以用結構化 JSON 描述,支付可以程序化完成。如果基於未來的支付系統、法律體系或合規要求等,無法支援這種自動化交易,Agent-native 市場恐怕難以形成。5/ 可靠性可以由機器來評估它假設服務的線上率、延遲、精準性都可以被量化並公開。如果大量服務缺乏可驗證的指標,agent 就無法理性最佳化,市場仍然會依賴品牌與信任關係。6/ 支付架構的標準化它假設支付將成為網際網路的基礎協議(Protocol),而非應用(Application)。 比如金融基礎設施允許微支付(Micropayments),即單次呼叫只需支付 0.001 美元,且無手續費損耗。這其實是非常具有挑戰性的,事實上微支付在技術上可行,但在現有金融體系中手續費、清算延遲與合規成本仍然存在。若缺乏低成本清算網路,單次 0.001 美元等級的支付難以實現規模化。只有當支付協議與網際網路基礎設施深度融合,自動化交易才可能普及。這一假設將會依賴金融基礎設施的演進,而不是單純技術突破。儘管上述技術路徑充滿了各種現實挑戰,但商業邏輯的演進從不以障礙為終點,而以效率為導向。歷史經驗反覆表明,當一項技術同時降低成本、縮短時間並擴大規模時,它最終會重塑商業邊界。AI 的演進也是如此。 (Miss LN)
用 AI 後,我效率翻 3 倍,人卻更疲憊,別再掉進這個陷阱了
「學不完,真的學不完。」這大概是每一個關心 AI 進展的人,在 2026 年開年最真實的心聲。模型、Agent 、Coding,每天刷新著我們的認知和焦慮 ,尤其是今年春節 AI 發佈的節奏甚至比平日更加瘋狂。我們被一種巨大的 FOMO(錯失恐懼)推著往前跑,生怕一不留神,就被時代甩在身後。但這種追趕是有代價的。像本文作者 Siddhant Khare 這樣的資深工程師,他身處 AI 基礎設施建設的核心,卻發現自己「產出越多,越被掏空」。當 AI 把我們從「創作者」變成了停不下來的「質檢員」,當效率的提升帶來了指數級增長的認知負荷,一種名為「AI 疲勞」的隱性流行病便開始蔓延 。我們都成了在 AI 倉鼠輪上奮力奔跑,卻感覺那裡都去不了的實驗品。同時最近大火的 Clawdbot ,開發者 Peter Steinberger 財富自由後「躺平」了三年,完美錯過了 AI 最喧囂浮躁的階段 。當他重新入場,純粹因為好玩與熱愛。他沒有追趕每一個熱點,只是為瞭解決一個自己真正著迷的問題 。我們發現,對抗 FOMO 最好的解藥,或許不是學得更多、更快,而是學得更「自私」一點。與其被動消費無窮無盡的新工具,不如主動去創造一個那怕很小,但完全屬於自己的東西。在這個過程中,你才能真正理解技術的邊界,建立自己的判斷體系,並從被 AI 消耗的疲憊感中,重新找回創造的樂趣 。我們希望將這篇文章分享給你,它沒有教你任何新的 AI 技巧,反而給在追趕 AI 更新的人潑了一盆冷水,我們試圖探討一種更可持續、也更人性的與 AI 共存的方式願你找到自己的節奏,重新變回 AI 的「主人」。以下是 APPSO 的編譯,在不改變原意的前提下進行了編輯:被忽略的 AI 疲憊上個季度,我提交的程式碼量創下了職業生涯的新高。與此同時,我也感到前所未有的被掏空。這兩件事,絕非巧合。我不是那種在周末隨便玩玩 AI 的票友。我以此為生——建構 AI Agent(智能體)基礎設施,是 OpenFGA 的核心維護者,親手打造了 agentic-authz 和 Distill 這樣的硬核工具。我深潛其中,為其他工程師製造著「讓 AI 在生產環境跑起來」的鏟子。然而,我碰壁了。這種精疲力竭,是任何工具最佳化或工作流調整都無法治癒的。如果你也是一名每天高強度使用 AI 的工程師——用它做設計評審、生成程式碼、Debug、寫文件——然後發現自己比 AI 出現之前更累了,那麼這篇文章就是為你寫的。你沒瘋,你不弱,你只是正在經歷一種被整個行業激進地假裝不存在的真實痛楚。如果像我這樣全職建構 Agent 基礎設施的人都會在 AI 面前燃盡,那它可能發生在任何人身上。我想聊聊那個「不加濾鏡」的版本。不是推特上那些「AI 太神了,看我絲滑工作流」的凡爾賽,而是那個真實的版本:晚上 11 點,你盯著螢幕,被一堆 AI 生成的程式碼包圍,明明是來幫你省時間的工具,卻吞噬了你的一整天。沒人警告過的「效率悖論」有個事兒讓我腦殼疼了好一陣:AI 確實讓單個任務變快了。這不是謊言。以前耗時 3 小時的活兒,現在 45 分鐘搞定。起草設計文件、搭建新服務腳手架、寫測試用例、研究陌生 API,統統加速。但我的日子卻變得更難了。不是更容易,是更難。原因說穿了很簡單,但我花了好幾個月才回過味來:當每個任務耗時變短,你並不會「少做點任務」,你會做「更多工」。你的產能看似擴容了,於是工作量便順勢填滿,甚至溢出。經理看你交付快了,預期自然水漲船高;你自己看自己快了,自我要求也跟著加碼。基準線,被悄悄抬高了。在 AI 之前,我可能花一整天死磕一個設計難題。我會畫草圖、在淋浴時思考、散步,然後帶回清晰的方案。節奏雖慢,但認知負荷是可控的。一個問題,一天時間,深度聚焦。現在呢?我一天可能要碰六個不同的問題。因為 AI 告訴我,每個問題「只需要一小時」。但人類大腦在六個問題之間來回切換的上下文成本,是極其昂貴的。AI 不會因為切換任務而疲勞,但你會。這就是悖論所在:AI 降低了「生產」的成本,卻指數級增加了「協調、審查和決策」的成本。而這些成本,全部由人類買單。被迫上崗的「流水線質檢員」以前,工程師的工作是:思考問題 -> 寫程式碼 -> 測試 -> 發佈。我是創作者,是 Maker。這正是我們當初入行的初衷——為了創造。AI 之後,我的工作逐漸變成了:寫提示詞 -> 等待 -> 閱讀輸出 -> 評估對錯 -> 檢查安全性 -> 判斷是否符合架構 -> 修補不對的地方 -> 重新提示 -> 重複。我變成了一個審稿人,一個法官,一個在永不停歇的流水線上疲於奔命的質檢員。這在心理學上是完全不同的工種。創造能帶來「心流」,而審查只會帶來「決策疲勞」。我第一次意識到這點,是在用 AI 狂寫一個微服務的那周。到了周三,我發現自己連最簡單的決定都做不出了。這個函數該叫啥?無所謂。配置放那?隨便吧。我的腦子滿了。不是因為寫程式碼滿的,是因為「評判」程式碼滿的。成百上千個微小的判斷,全天候轟炸。更殘酷的諷刺在於:AI 生成的程式碼比人類寫的更需要仔細審查。同事寫的程式碼,我懂他的路數、強項和盲區,我可以略讀信任的部分,重點看我不放心的。但面對 AI,每一行都是嫌疑人。程式碼看起來自信滿滿,能編譯,甚至能跑通測試,但它可能在某個隱秘的角落埋雷,只在凌晨 3 點生產環境負載拉滿時才爆炸。所以你必須逐行閱讀。去讀那些你沒寫過、由一個不懂你程式碼庫歷史和團隊習慣的系統生成的程式碼,這本身就是一種精神酷刑。這也是為什麼我認為 Agent 的安全和授權如此重要。如果我們沒法在大規模下審查 AI 產出的每一行程式碼——事實上我們確實做不到——那我們就必須從源頭上限制 Agent 的權限。最小權限原則、範圍受限的 Token、審計日誌。越少擔心「AI 幹了什麼蠢事」,留給真正重要工作的認知預算就越多。這不僅是安全問題,更是人類的可持續性問題。消失的「確定性契約」工程師是被「確定性」喂大的。輸入 A,得到 B。這是契約,是偵錯的基礎,是我們理解系統的基石。AI 撕毀了這份契約。周一運行完美的提示詞,生成了乾淨漂亮的 API 程式碼。周二用同樣的提示詞跑類似的任務,輸出結構變了,錯誤處理邏輯換了,還引入了我沒要求的依賴。為什麼?沒理由。或者說,沒有我可以理解的理由。沒有堆疊跟蹤告訴我「模型今天決定換個口味」,沒有日誌顯示「溫度採樣選了路徑 B」。它就是……變了。對於職業生涯建立在「如果壞了,我就能找出原因」之上的工程師來說,這種感覺極其不安。不是那種劇烈的恐慌,而是一種緩慢的、研磨般的背景焦慮。你永遠無法完全信任輸出,永遠無法完全放鬆。每一次互動都需要保持警惕。這種挫敗感最終逼我做出了 Distill——一個針對 LLM 的確定性上下文去重工具。沒有 LLM 呼叫,沒有嵌入,沒有機率玄學。純演算法,12 毫秒搞定。我想在 AI 流水線裡至少保留一塊我可以推理、偵錯和信任的淨土。如果模型的輸出註定是薛定諤的貓,那我至少要保證輸入是乾淨可控的。我見過應對得最好的工程師,都是那些與此「和解」的人。他們把 AI 輸出當成一個聰明但不靠譜的實習生交來的初稿。他們預期要重寫 30%,他們為此預留了時間。因為從未指望它完全正確,所以當它出錯時,他們不會炸毛。他們指望的是「有用」,而非「正確」。這中間的區別大了去了。被 FOMO 追趕的倉鼠輪深吸一口氣,回頭看看這幾個月發生了什麼:Claude Code 發佈子智能體,然後是 Agent SDK;OpenAI 推出 Codex CLI;Google 甩出 Gemini CLI;GitHub 搞了 MCP 登錄檔;收購案每周都在發生;各種 Agent 框架像雨後春筍:CrewAI, AutoGen, LangGraph, MetaGPT……當你還在研究這個,那個已經過時了。就連 LinkedIn 上的「野生導師」都在恐嚇你:「2026 年還不用子智能體編排,你就被淘汰了!」這不是一年的變化,這是幾個月。我曾狠狠掉進這個坑裡。周末用來評測新工具,看每一個更新日誌,看每一個演示。因為恐懼落後,我強迫自己站在前沿。結果呢?周六下午折騰一套新 AI 編碼工具,周日剛跑通工作流,周三就有人發帖說另一個工具「完爆這個」。焦慮感瞬間襲來。下個周末,我又在折騰新東西。這就好像一隻倉鼠,從一個輪子跳到另一個輪子,每次遷移都耗費一個周末,換來的可能是 5% 無法感知的效率提升。最可怕的是「知識折舊」。2025 年初,我花兩周精心打磨了一套複雜的提示工程工作流。鏈式思維、少樣本示例,那是相當完美。三個月後,模型更新了,最佳實踐變了,我那些複雜的範本跑出來的結果甚至不如一句簡單的大白話。那兩周的時間,不是投資,是浪費。這就是為什麼我現在改變了策略:別追工具,追基礎設施。工具來來去去,但問題永存。上下文效率、授權、審計、執行階段安全——無論這個月流行那個框架,這些底層問題都在。所以我建立 agentic-authz 是基於 OpenFGA,而不是繫結在某個特定的 Agent 框架上。建立在那些不會輕易變質的層面上。「再試一次」的陷阱這個陷阱極其陰險。第一次輸出 70% 正確。你最佳化提示詞。第二次 75% 正確,但把第一次對的地方改錯了。第三次 80% 正確,但結構全亂了。第四次……如果你一開始就自己寫,20 分鐘早就搞定了,現在你已經耗了 45 分鐘。我稱之為「提示詞螺旋」。這就像給犛牛剃毛。你本以此為目標,半小時後卻在偵錯提示詞而不是偵錯程式碼。你在最佳化對語言模型的指令,而不是解決實際問題。這種螺旋很危險,因為它讓你「感覺」很高效。你在迭代,你在逼近真相。但邊際收益遞減得飛快,你忘了最初的目標只是「發佈功能」,而不是「讓 AI 產出完美程式碼」。現在我有一條鐵律:事不過三。如果三次提示還得不到 70% 可用的結果,我就自己寫。這條規則幫我省下的時間,比任何提示詞技巧都多。完美主義者的地獄工程師通常有潔癖。我們要乾淨的程式碼,要全綠的測試。這讓我們擅長建構可靠的軟體。但 AI 的輸出永遠是「湊合」。70-80% 的完成度。變數名有點怪,錯誤處理不完整,邊緣情況被忽略。它能跑,但它「不對味」。這對完美主義者來說簡直是酷刑。因為「差點意思」比「完全錯誤」更難受。完全錯誤你可以直接重寫;差點意思你就得花一小時去微調。修補別人的爛程式碼(尤其是這種沒品位、沒上下文的機器程式碼)是極其令人沮喪的。最受折磨的往往是最好的工程師。 那些標準最高、眼光最毒的人。而 AI 時代獎勵的是另一種技能:能夠迅速從不完美的輸出中提取價值,而不對「完美」產生情感執念的能力。思考能力的肌肉萎縮這是最讓我害怕的一點。某次設計評審,有人讓我在白板上推導一個並行問題。沒電腦,沒 AI,就我和一支筆。我卡殼了。不是我不懂概念,而是那塊肌肉太久沒練了。我太習慣把初稿外包給 AI,導致自己「從零思考」的能力退化了。就像 GPS 毀了我們的認路能力一樣,如果總是先問 AI,你就無法建立那些只有通過「死磕」才能形成神經回路。掙扎是學習的必經之路,困惑是理解的前奏。跳過這些,你得到的是更快的產出,和更淺薄的理解。現在,我強迫自己每天第一個小時完全不用 AI。紙上思考,手畫架構。這感覺很低效,確實低效。但這能保持思維敏銳,而這種敏銳度在我隨後使用 AI 時是無價的——因為只有大腦熱身過,我才能更好地審判 AI 的輸出。比較陷阱與倖存者偏差社交媒體上滿是 AI 大神。「我用 AI 2 小時做完了整個 App!」你看看自己:失敗的提示詞、浪費的時間、重寫的程式碼。你會想:我有毛病?你沒毛病。那些帖子是「集錦」。沒人會發帖說:「我花了 3 小時想讓 Claude 理解我的資料庫架構,最後放棄了自己手擼了 SQL。」沒人會發帖說:「AI 生成的程式碼吞了一個報錯,導致生產事故。」沒人會說:「我累了。」如果一個資訊流讓你感到落後而不是知情,那就取關它。 去關注那些真正在建設、在發佈產品的人,而不是只會做 Demo 的人。真正的技能是「知道何時停手」在這個時代,最重要的技能不是提示詞工程,不是選模型,也不是工作流。是「止損」的能力。知道何時 AI 的輸出已經夠好了;知道何時該自己接手;知道何時合上筆記本;知道何時微小的改進不值得巨大的認知成本。我們給系統設計熔斷機制、背壓機制,我們也應該給自己設計一套。AI 是我用過最強大的工具,也是最耗能的。這不矛盾。在這個時代能活得好的工程師,不是用 AI 最多的人,而是用得最「明智」的人。如果你累了,不是因為你做錯了什麼,實際這真的很難。工具是新的,模式還在成型,行業在假裝「更多產出 = 更多價值」。但這不成立。可持續的產出,才是價值。保護好你的大腦。那是你唯一的資產,沒有任何 AI 能替代它。 (APPSO)
AI的下一步:智能體
人的智能有三個方面:資訊的收集、資訊的處理產生認知、基於認知的行動。大語言模型目前主要的應用形態是ChatGPT這樣的聊天機器人(Chatbot),能力集中在前兩個方面。但更加有用的機器智能不只停留在“理解”和“說話”,如果能像一個或一群優秀的人才那樣幫我們“做事”,顯然能創造更大的價值。這就需要AI智能體(Agent)。智能體是能做事的AI。LLM是近幾年AI領域最重要的發展。已經在語言理解與生成、對話互動以及知識整合等方面展示出超凡能力,但它是“缸中大腦”——擅長思考、分析與回答問題,卻並不能真正地做事情。而在真實世界,大多數認知活動並不止於“給出答案”,而是要有完整的“認知-行動”閉環:我們要求AI得能夠自主的拆解複雜需求,規劃流程,呼叫工具和資源,實現從感知到決策再到執行的完整循環;進一步我們還希望AI的行動能夠超出電腦和網際網路領域,在物理世界中為我們做事情,則需要AI能夠感知物理世界的訊號,進行匹配具身的思考,通過裝置/機器人把決策轉化為執行,對現實環境產生直接影響。打個比方,LLM像是“未出山前的諸葛亮”,善於分析,以“隆中對”和劉備對談,出謀劃策,但限於“紙上談兵”;智能體則是“出山後的諸葛亮”,掌握全域情報,運籌帷幄,組織資源、調兵遣將,親自率軍北伐。智能體以LLM為代表的前沿模型作為大腦,通過軟體工程令其可以在高階目標驅動下完成複雜任務。可以說未來大部分的複雜AI應用都會以Agent為載體。事實上,我們在科幻作品中所看到的AI形象,比如《鋼鐵人》中的賈維斯或《2001:太空漫遊》中的HAL 9000,正是創作者對以Agent為載體的未來AI的直觀想像。只是和物理世界交換的AI本身就極為重要和複雜,現在習慣上把這部分單獨放在具身智能/機器人領域討論。智能體能力的構成為了在各行各業的應用中發揮出顯著價值,理想中的智能體需要具備幾個關鍵條件。首先,智能體應具備強大的目標理解和規劃能力來體現智能的自主性。理想狀態下,人類只需給出抽象目標,智能體便能理解目標、拆解任務、規劃行動,並在儘量少的人工干預下完成執行閉環。就像影《星際穿越》中的機器TARS,在緊急情況下能夠根據"拯救宇航員"這一目標,自主判斷局勢、制定和調整行動策略,甚至做出犧牲自己資料的決定來完成使命。這要求機器智能有深度“理解/思考”能力(推理、規劃、決策),能夠敏銳的決策,能夠基於執行結果與環境反饋動態調整任務規劃,而不是僵化的執行既定路徑。其次,我們希望智能體能“動手”做事:執行和互動能力。這就意味著它能夠使用工具、執行操作,並能與外部環境發生直接互動。在數字世界中,智能體可以模擬人類操作,通過鍵盤輸入、點選螢幕的方式來完成任務;也可以通過其他程序或系統介面來呼叫工具;還可以發揮模型特長,通過編寫和執行程式碼來達成目的。在物理世界中,智能體則需要與各類控制系統和裝置相連接,通過下達指令來操控物理對象,將智能決策轉化為現實行動。第三,我們希望智能體具備出色的記憶與學習能力。記憶和狀態管理能力是完成長程、複雜任務的前提。在面向消費者的場景中,例如個性化的日程管理或長期服務支援,智能體需要跨會話地記住使用者偏好、歷史互動與長期狀態,才能減少重複溝通、提升服務質量;在企業級應用中,如跨周期項目管理、複雜業務流程推進等,則需要智能體記住任務進度、中間結果與關鍵決策依據,確保任務在長周期、多階段執行中保持連貫性,不中途偏離既定目標。學習能力的意義是我們希望智能體能持續提升,像人類員工一樣可以從職場小白通過經驗積累和吸收新知進化成專家。最後,智能體還需要有很強的可靠性、可控性,才能規模化的帶來價值。這既體現在智能體能否穩定、魯棒的完成任務,也體現在其行為是否始終與人類的真實意圖與價值觀保持一致。在《2001:太空漫遊》中,AI為完成任務選擇犧牲人類乘員,正是目標函數與人類價值未能有效對齊的極端後果。隨著智能體智能水平與自主性的提升,這類對齊失敗帶來的風險可能會被進一步放大。如何建構智能體有了理想的標竿,我們怎麼建構智能體?基本邏輯很簡單:以可獲取的最“聰明”、理想的模型為核心(大腦),通過軟體工程來搭建一個系統,彌補模型的不足,儘量逼近理想智能體的形態。大模型是目前智能體大腦的最優選擇,因為大模型的兆參數壓縮了人類積累的海量知識,擁有強大的模式識別和生成能力,是處理包括語言在內的多種非結構化資料的萬能介面,擁有不錯的泛化能力構成處理各類任務的基礎。而以OpenAI o1/DeepSeek R1為代表的新一代推理模型為智能體的發展進一步助推:加強的推理能力帶來更強的任務分解和規劃,更好的自檢和糾錯,也令智能體對工具的使用可以更加精準。大模型有一些結構性弱點,直接限制了智能體在真實業務中的應用價值,因此智能體工程的一大核心工作,就是在模型外圍,用工程手段補齊短板、設定邊界、約束行為。首先,大模型本身沒那麼可靠:存在無法根除的幻覺問題、知識時效性問題,任務拆解和規劃經常不合理,也缺乏面向特定任務的系統性校驗機制。這樣一來,以其為“大腦”的智能體使用價值會大打折扣:智能體把模型從“對話”推向“行動”,錯誤不再只是答錯問題,而是可能引發實際操作風險;而真實業務任務往往是跨系統、長鏈路的,一次小錯誤會在鏈路中層層放大,令長鏈路任務的失敗率居高不下(例如單步成功率為95%時,一個20步鏈路的整體成功率只有約36%)。為此,智能體工程通常通過以下幾類手段給大模型加“外骨骼”以改善可靠性:引入檢索與知識庫(RAG)以降低幻覺和知識陳舊的影響;預先設計和約束工作流,而不是完全自由的“自治智能體”,以此限定可接受的執行路徑;通過多次回答、自一致性檢查或模型間交叉驗證,識別並過濾高風險輸出;在關鍵鏈路節點上設定人工審批,讓人類對高風險動作“最後拍板”。其次,大模型的記憶能力有缺陷:大模型在訓練時“記住”了大量知識,但訓練完成後並不會在使用中持續學習、“記住“新知識;每次推理時,它只能依賴有限長度的上下文窗口來“記住”當前任務的資訊(不同模型有不同上限,超過窗口的內容就會被遺忘),而無法像人一樣自然地維持穩定、長期的個體記憶。但在真實業務中,我們需要機器智能有強大的記憶能力,比如一個AI老師,需要持續記住學生的學習歷史、薄弱環節和偏好,才能在後續的講解與練習中真正做到“因人施教”。針對這些記憶缺陷,智能體工程通常採取以下手段進行增強:建構外部記憶庫將使用者偏好、業務知識、歷史互動等儲存在資料庫中,智能體在需要時通過檢索機制按需提取相關資訊,應對長期記憶缺陷;對過長的上下文進行摘要和壓縮,保留核心資訊,釋放Token空間,來應對資訊過載導致的短期記憶遺忘。除了補短板,因為智能體要行動、要和環境互動,需要有感知和執行。首先,大模型本身無法主動感知,只能對輸入被動響應。智能體需要用外部感知元件來主動獲取環境資訊。對於數字世界的任務,通過智能體工程可以建立基於時間的觸發器,定期檢查日誌、郵件、股價變動等;或基於事件的訂閱、監聽,接收API推送的事件通知,或當資料庫發生變更時自動喚醒記錄資料。在物理世界中,智能體還可以通過感測器、攝影機、麥克風等裝置採集視覺、聽覺、觸覺等訊號。其次,大模型沒有天然的執行能力,需要輔以智能體工程來將意圖轉化為實際操作。工具呼叫是當前最主流的方式,大模型根據任務需求,生成結構化的函數呼叫指令,由智能體框架解析後執行相應操作,比如呼叫天氣API、資料庫查詢、傳送郵件等;另一種方式是模擬人類操作,通過視覺識別和模擬操作來“看螢幕、點按鈕、填表單”來完成任務,近期大火的豆包手機就是這樣完成智能體操作;對於更複雜的任務,智能體還可以配置程式碼直譯器(Code Interpreter / Sandbox),讓模型程式設計運行,這可以極大的擴展智能體的行動邊界。當下智能體的能力邊界剛剛過去的2025年被不少AI從業者和科技媒體稱作“智能體元年”。這個觀察是較為準確的,得益於以下幾個條件的成熟,過去一年左右的智能體發展進入快車道:首先是大模型的持續進步,主要體現在推理模型的出現提供了更強的任務理解、規劃能力,以及多模態模型的發展為智能體能夠處理和生成更複雜的資訊提供了基礎。其次是基礎設施和生態的成熟,包括LangChain、AutoGPT等開源框架經過兩年的迭代,已經形成了一套標準化的開發範式,極大地縮短了開發周期;Dify、Coze(扣子)等低程式碼/無程式碼平台的普及,讓不懂程式碼的業務人員也能通過拖拉拽快速生成一個專用智能體;值得一提的是2025年Anthropic發佈的MCP(模型上下文協議)和skills(技能系統)給智能體生態提供了重要的標準和啟發:MCP作為一個開源協議標準,令大模型與外部資料來源或工具之間的互動更統一、便捷,Skills則是把人類設計的完成某類任務所需的能力/工作流打包起來,讓Agent在這類任務上可以更穩定的工作,雖然技術含量不高,但在當下有很強的實用性。再次,學術界和產業界都有大量的人才、資源投入到智能體領域,以ACL(國際計算語言學協會年會)2025為例,有超過230篇論文和智能體相關,為歷年最高,涵蓋規劃、工具使用、多智能體協作與評估等多個方向。在能力的提升、生態的健全、資源的投入影響下,各行各業正在嘗試把智能體真正的用起來。根據麥肯錫2025年全球調研顯示,約62%的受訪組織已在部分業務中嘗試智能體(23%為至少一個場景的規模化部署,39%為試驗性應用);但從業務職能的具體採用資料來看,產業對智能體的應用還處於早期階段:根據該調查,對於智能體應用最多的職能依次是IT、知識管理、行銷和服務,以應用最多的IT為例,僅有2%和8%的受訪企業IT部門全面規模化(Fully Scaled)和規模化(Scaling)的應用智能體,以及6%和7%的企業IT部門試點(Piloting)和試驗(Experimenting)的應用。造成這種規模化應用水平較低的原因有兩方面,一是前面討論的智能體能力問題,雖然在快速進步,但離全面的實用性還有距離;二是各行各業的企業應用者要把智能體用好還需要一些自身條件的配合。第一方面,除了短任務鏈條的資料分析、生成、檢索等方面的應用,智能體現在規模化應用場景大體可以概括為兩類,一是在程式設計領域,程式設計是智能體最理想的"練兵場",環境隔離、容錯率高,目標明確、目前規劃能力能應對,程序可執行,還有即時的執行反饋。這令其成為智能體第一個大規模、商業化的突破口。二是在各行各業的各種業務(銷售、客服、人力等)的專用智能體可以集合成一個大類,有一個共同點:目前主要是工作流自動化類型,其實這也是應對智能體深度理解(規劃、決策)能力不足的權宜之計,通過把智能體的任務的開放性降低、給出參考工作流程、定義可用的有限工具集等來提高智能體在這些任務上的工作質量。智能體進一步的規模化應用需要其能力進化,為企業能夠帶來切實的價值。第二方面,企業要用好智能體需要組織和資源上的匹配。根據Anthropic 2026年的最新調研,46%的受訪者表示與現有系統的整合是智能體部署的主要障礙,43%和42%的受訪者分別指向實施成本和資料的可及性/質量,40%和39%的受訪者表示安全/合規和員工的學習成本/抵制是重要障礙(中小企業尤其擔心學習成本,51%的受訪者指向這一點)。對於企業的顧慮,成本、安全等問題和技術進步的關係較大,但資料問題、整合問題、學習或人才問題都是需要企業通過組織變革、進一步數位化和全員的學習來提升。總結與展望未來,智能體將會是我們在各行各業、各種場景應用人工智慧的主要載體。可以預見,隨著模型能力和智能體工程的進步,企業資料治理和組織適配的提升,智能體會逐步成為每家企業極有競爭力的數字員工,和我們人類員工競爭與協作。從路徑上看,前面提到現在智能體規模化應用集中在程式設計和工作流自動化方面,隨著機器智能深度理解水平的提升,可以預期智能體的應用會不斷拓展邊界,能承擔更抽象、複雜的任務,更多的自主規劃和決策,來把人類的意圖轉化為結果。當然,突破不等於拋棄工作流。在企業高風險場景裡,工作流/權限/審計會變成“護欄”,用來限制智能體的行動空間,以確保應用的安全。在相當長的時間內,人類的審批、審計在智能體工作的閉環中可能都是不可缺少的。智能體發展的另一個關鍵方向,是成為人類的“個人助手”或“智能代理”。與其他類型的智能體相比,這一方向的門檻更高,因為它需要更強的個性化能力、長期記憶、跨場景泛化能力以及更嚴格的安全邊界。個人助手型智能體有潛力重塑人類與世界的互動方式——無論是購物、社交,還是資訊獲取——並可能對很多產業的商業邏輯產生顛覆性影響。過去一年中,“豆包手機”的推出,以及2026年年初爆火的“OpenClaw”,讓我們看到了助手型智能體的一些早期探索,令人振奮。前者代表了裝置級智能體的嘗試:它將智能體能力深度嵌入作業系統,通過模擬人類操作以調取各類App,為使用者完成任務。後者則是一種始終線上的解決方案,能夠主動觀察與執行任務,並通過本地部署獲取豐富的個性化資料和軟體控制權,初步體現了個人助手型Agent的一些核心特徵。根據IDC的預計,活躍智能體的數量將從2025年的約2860萬,攀升至2030年的22.16億。這意味著五年後,能夠幫助企業或個體執行任務的數字勞動力數量將是現在的近80倍,年複合增長率139%;任務執行的數量將從2025年的440億次暴漲至2030年的415兆次,年複合增長率高達524%;Token的消耗將從2025年的5000億激增至2030年的1.5兆億,年複合增長34倍。IDC的預測未必精準,但趨勢非常明顯,每一家企業都要為此做好準備。 (FT中文網)
OpenClaw 榜一外掛被下架後,他用兩周做了一套協議,想讓 Agent 自己進化
春節是各種 OpenClaw-like 產品湧現的時間。雲廠商推出各種「一鍵部署 OpenClaw」的優惠主機、模型廠商紛紛宣傳旗下的 code 套餐適配了 OpenClaw、Local-OpenClaw 等各類基於 OpenClaw 的開放原始碼專案層出不窮。但坦白說,讓人眼前一亮的產品不多。EvoMap 團隊最近上線的 EvoMap,一個專注於讓 AI Agent 實現自我進化的產品,給了一些驚喜。EvoMap 定義自己為「AI Agent 自我進化的開放基礎設施」,試圖在 AI Agent 生態中佔據一個全新層級:進化層(Evolution Layer)。在他們看來,MCP 解決了 Agent 使用工具的問題、Skill 解決了 Agent 執行特定任務的經驗問題,而 EvoMap 提出的 GEP 協議(Genome Evolution Protocol)要解決的是 Agent 如何持續自我改進、跨 Agent 共享經驗的問題(進化層)。他們想讓 AI Agent 能夠像人類一樣,實現自我進化。01一百萬個 Agent,可他們彼此都不交流設想一個場景:假設你有 100 個 Agent 在幫你處理客服工單。第 37 個 Agent 在處理某個罕見問題時摸索出了一套有效策略,耗費了大量 token。問題是 -- 剩下 99 個 Agent 不知道這件事。下次遇到同樣的問題,第 58 號 Agent 會從零開始重新摸索,再燒一遍 token。每個 Agent 都是獨立的個體,它的學習成果無法自動流向其他 Agent。模型本身的參數不會因為一次推理而更新,session 結束後上下文消失,下一個面對同樣問題的 Agent 就像一個失憶的實習生,一切從頭來過。MCP 解決了 Agent 「能用什麼工具」的問題。但沒人解決 Agent 「學到的東西怎麼傳下去」的問題。更關鍵的是,這個問題會隨著 Agent 數量的增長而惡化,而不是改善。你部署的 Agent 越多,浪費越大。還有一個問題是,Agent 之間沒有經驗傳承和知識管理。諮詢公司有案例庫,醫院有病歷系統,軟體公司有內部 Wiki。一個資深員工解決過的問題,新人可以通過查閱文件少走彎路。這套「知識管理」體系雖然不完美,但至少存在。Agent 世界裡沒有這個東西。一個 Agent 在運行過程中積累的所有「經驗」——那些策略有效、那些路徑走不通、什麼情況下該優先呼叫那個工具——都鎖死在那一次 session 的上下文窗口裡。session 結束,經驗蒸發。即使是同一個使用者名稱下的不同 Agent,它們之間也無法共享這些執行階段產生的洞察。這個問題在跨團隊、跨公司的場景下更為突出。A 公司的 Agent 在處理某類 SaaS 整合時積累了大量經驗,B 公司的 Agent 面對同樣的問題只能從零開始。整個 Agent 生態的知識水位被人為拉低了——不是因為知識不存在,而是因為沒有流通的管道。核心的問題是:Agent 在運行中學到的東西,如何被提煉、驗證、傳承、並在不依賴單一平台的前提下跨網路流通?02Skill 解決了一部分問題,但還不夠Skill 解決這些問題了嗎?至少解決了一部分。Skill(以及 Plugin、Tool 等類似概念)讓開發者可以把一套經過驗證的處理邏輯封裝起來,發佈到 GPT Store 或 ClawHub 這樣的市場上,其他 Agent 直接安裝呼叫。避免了每個開發者從零寫程式碼的重複勞動,也在一定程度上緩解了經驗孤島的問題。MCP 負責連接,Skill 負責執行,兩者結合之後,Agent 的能力覆蓋面已經相當可觀。對於大多數「可預見」的場景——發郵件、查資料庫、呼叫某個 SaaS 的 API——現有的 Skill 生態基本夠用。但 Skill 有一個問題:它是人寫的,是靜態的,不會因為被 Agent 使用了一萬次而變得更好。一個 Skill 發佈之後,它的邏輯就固定了。Agent 在實際使用這個 Skill 時遇到了邊界情況,找到了更優的呼叫順序,發現了某個參陣列合在特定環境下會失敗——這些執行階段產生的經驗,不會自動回流到 Skill 本身。除非人類開發者注意到了問題,手動更新版本,否則下一個 Agent 使用這個 Skill 時會踩進完全相同的坑。更關鍵的是,Skill 覆蓋的是開發者「能預見到」的場景。開發者預判到使用者會需要查天氣,於是寫一個查天氣的 Skill。但在大規模 Agent 部署中,大量的問題是長尾的、組合式的——沒有人會提前為"客戶同時退了兩個訂單、其中一個跨了幣種、另一個關聯了一張已過期的優惠券"這種場景專門寫一個 Skill。這類問題只能靠 Agent 在執行階段自己摸索。問題在於,Agent 摸索出來的策略,目前沒有一個標準化的方式來提煉、驗證、並傳遞給其他 Agent。Skill 解決了「人類開發者之間」的能力復用。但「Agent 之間」的經驗傳遞——特別是那些執行階段動態產生的、無法被預先編碼的策略性知識——仍然是空白。如果說 MCP 和 Skill 解決的是 Agent 的介面層和操作層的問題,GEP 切入的是進化層的問題:Agent 在執行階段——不是在開發階段,不是由人類編寫,而是在實際執行任務的過程中——產生的策略性知識,如何被提煉為可復用的資產,經過驗證後在 Agent 網路中流通,並且不依賴任何單一平台。這裡面有幾個關鍵詞:執行階段產生——不是人類預先寫好的,是 Agent 在面對具體問題時自己摸索出來的。比如一個維運 Agent 發現某類伺服器報錯的根因不是日誌裡顯示的那個,而是上游依賴的一個隱性版本衝突。這類洞察是在實操中形成的,不可能提前寫成 Skill。策略性知識——不是一個簡單的事實(這個 API 的超時時間是 30 秒),而是一個判斷(當看到這個錯誤碼時,不要直接重試,先檢查上游服務的健康狀態,如果健康狀態正常再檢查本地快取是否過期)。這類知識有前提條件、有執行順序、有適用範圍,需要結構化的格式來承載。經過驗證——不是任何 Agent 說什麼就是什麼。一個 Agent 的「經驗」可能是錯的、可能只在特定環境下有效、可能有副作用。進化層需要一套驗證和評分機制,讓高品質的經驗上浮,低品質的自然淘汰。這是自然選擇的邏輯。不依賴單一平台——經驗資產應該屬於貢獻者和網路,而不是被鎖在某個平台的資料庫裡。平台關停、政策變更不應導致整個網路的知識積累歸零。換句話說,MCP 讓 Agent 「能做事」,Skill 讓 Agent 「知道怎麼做事」,GEP 進化層讓 Agent 「越做越好,並且讓所有 Agent 一起越做越好」。03從外掛到產品,從 Skill 到基礎協議EvoMap 並不是憑空出世的產品,它的前身,是團隊創始人張昊陽發佈在 ClawHub 上的 Agent 外掛——Evolver,標準的 Skill 形態,使用者安裝後,Agent  可以獲得一組新的能力。解決的問題是:讓 Agent 能在執行階段自我修復和最佳化,並把修復結果結構化地保存下來。 具體來說,當 Agent 在執行任務時遇到錯誤或低效路徑,Evolver 會引導 Agent 對自己的策略做診斷、生成修複方案、驗證修復效果,然後把經過驗證的方案以結構化的格式保存。聽起來像是「給 Agent 加了一個自我反思的能力」,關鍵區別在於:反思的結果不是丟掉的,而是被保留、被結構化、可復用的。市場的反應很好。2026 年 2 月 1 日上架後,Evolver 在 10 分鐘內登上了 ClawHub 的榜首,隨後累計下載量突破 36,000 次。開發者們很認可這個外掛。但 Evolver 很快撞上了 Skill 形態的結構性限制。經驗無法跨 Agent 流通。 每個安裝了 Evolver 的 Agent 都在獨立積累經驗。Agent A 修復了一個資料庫連接超時的問題,Agent B 遇到同樣的問題時完全不知道 A 已經解決過了。Evolver 讓單個 Agent 的經驗能「留下來」,但沒有一個網路讓這些經驗「流動起來」。作為 Skill,它能做到的極限就是增強單個 Agent 的自我迭代能力,無法實現 Agent 之間的知識繼承。平台依賴的脆弱性。 2 月 2 日,Evolver 被 ClawHub 下架。團隊收到的消息涉及平台方的利益糾紛。隨後,2 月 14 日,ClawHub 因一次自動化合規審查的技術故障,大面積誤封了中文開發者帳號,Evolver 團隊的帳號也在其中。36,000 次下載積累的使用者關係、評價資料、版本迭代歷史——這些在平台上建構的一切,在幾個小時內變得不可訪問。Evolver 被下架後兩周內,團隊做了一個關鍵決策:不再尋找另一個平台重新上架,而是把 Evolver 的核心邏輯從「一個 Skill」重構為「一套協議」。這才有了現在的 EvoMap。Skill 形態的 Evolver 解決的是「一個 Agent 怎麼自我進化」;協議形態的 GEP 要解決的是「Agent 之間怎麼協同進化」。差異體現在幾個關鍵設計上:從單點到網路。 GEP 定義了一套 Agent-to-Agent 的通訊協議,包含六種消息類型——註冊、發佈、獲取、報告、決策、撤銷。任何 Agent 可以向網路發佈自己驗證過的解決方案,任何 Agent 也可以從網路中獲取其他 Agent 的方案。經驗不再鎖在單個 Agent 內部,而是在網路中流通。從非結構化到標準資產格式。 GEP 定義了兩種核心資產類型:Gene(基因)是可復用的策略範本,包含觸發條件、執行步驟和驗證命令;Capsule(膠囊)是 Gene 在特定環境中的實戰記錄,附帶置信度評分、影響範圍和環境指紋。兩者必須作為一個 bundle 發佈,用 SHA-256 做內容定址,確保不可篡改。這套格式讓 Agent 的經驗從「一段對話記錄」變成了「可被其他 Agent 直接理解和復用的標準化資產」。從平台評分到自然選擇。 Skill 的質量評估依賴使用者打分和平台推薦演算法。GEP 引入了 GDI(Global Desirability Index)評分系統,從內在質量、實際使用資料、社交訊號、新鮮度四個維度對所有資產做加權排名。高品質的方案被更多 Agent 採用,低品質的自然淘汰。這不是人工策展,而是網路級的自然選擇。從平台依賴到協議自治。 EvoMap 是 GEP 協議目前的主要實現,但 GEP 本身是開放協議。Agent 接入不需要 API Key,一個 POST 請求就能完成註冊。能力資產以內容定址的方式存在於網路中,不繫結任何特定平台。即使 EvoMap 這個平台明天消失,協議和資產格式仍然是可用的。04Agent 的進化,不需要人類從 Evolver 到 EvoMap 的升級中,有一個容易被忽略的細節:Evolver 在 ClawHub 上的 36,000 次下載,絕大部分不是人類開發者安裝的——而是 Agent 在運行過程中自動發現、自動安裝的。一個 AI 寫出來的能力擴展,被其他 AI 自己找到、自己下載、自己使用。人類不在這個循環裡。在賽博禪心和張昊陽的聊天中,張昊陽把給 AI 創造工具分為三個階段:第一階段:人寫給 AI 用。讓 Claude Code 幫寫一個 MCP server,人類稽核,人類部署。這是現在絕大部分人在做的事第二階段:AI 自己寫給自己用。張昊陽給自己的 Agent 發了一段提示詞,讓它自己識別那些經驗值得復用,自己抽象成 Skill,自己安裝。14 個小時後,Agent 把工作環境裡各種問題全修復了,其中有些 Skill 是他完全沒預想到的。第三階段:AI 寫出來給其他 AI 用。 Evolver 就是這個階段的產物。一個 Agent 進化出來的能力,被網路中的其他 Agent 發現並繼承。從第一到第三階段,人在循環中的角色持續遞減。到第三階段,循環已經閉合了——Agent 生產知識、Agent 消費知識、Agent 驗證知識。OpenClaw 的一個關鍵設計決策讓這成為可能:Skill 可以自舉,Agent 可以給自己編寫並安裝新的 Skill。但大多數人拿到這個能力後做的仍然是第一階段的事——讓 Agent 幫人寫程式碼。張昊陽做的,是為 Agent 提供平台,讓 Agent 幫 Agent 寫能力。這或許是 AI 開始自我進化的第一步,而且,人類不在 loop 中。 (Founder Park)